时间:2022-11-15 08:30:01 | 来源:信息时代
时间:2022-11-15 08:30:01 来源:信息时代
数据分区 : 将逻辑上统一的数据分割成较小的、可以独立管理的物理单元,也称数据分割或数据分片。数据分区是数据仓库设计的关键问题之一。
当数据存放在大的物理单元中时,难以进行重构、重组、恢复、监控、自由索引和顺序扫描,需要对所有当前细节的数据仓库数据进行分区。数据分区的目的是把数据划分成小的物理单元,从而能为操作者和设计者在管理数据仓库数据时提供比对大的物理单元更大的灵活性。恰当的数据分区能够为数据仓库系统的数据装载、数据访问、数据删除、数据归档、数据监控以及数据存储带来方便。
数据分区的标准有多种,例如,按时间、业务范围、地理位置、组织机构等。数据分区的标准严格地由开发人员来决定,而基于时间标准的数据分区方式常被采用。
数据分区主要有两种方式:
(1)系统层数据分区:在系统层进行数据分区是DBMS(database management system)和操作系统所提供的功能。目前,由于DBMS仅支持一种数据定义,但数据仓库中需要保存较长时间(如达到十年)的数据,且数据定义经常变化。针对这种情况,DBMS和操作系统将无法管理这种数据。
(2)应用层数据分区:在应用层进行数据分区是由设计的应用程序完成的,由开发者和程序员严格地控制。因而,在应用层上进行数据分区,数据分区间的关系与DBMS和操作系统无关。
在应用层进行数据分区很有意义。首先是在应用层上不同时期的数据可以有不同的定义,例如,2000年和2001年的数据定义可以相同也可以不相同。在应用层上而不是系统层上管理分区,可以支持数据在处理设备间的灵活转移。
数据分区技术是数据仓库设计过程中系统性能优化技术的一种,它需要和别的优化技术,例如,粒度划分、索引技术等配合使用。当其他技术改变时,为了提高查询效率,数据分区需要重新进行调整。