时间:2022-12-12 20:30:01 | 来源:信息时代
时间:2022-12-12 20:30:01 来源:信息时代
并行数据库物理存储方法 : 以最小化查询处理的响应时间,在多处理机之间分布各种数据库对象(关系、索引等)的数据存储方法,也称数据分布方法。研究表明,数据分布对并行数据库系统的性能具有极大的影响。并行数据库存储方法的目的是把一个数据库对象均匀地分布存储到多个处理机上,使得在查询处理过程中系统的并行性能得到充分的发挥。并行数据库物理存储方法主要包括一维数据分布、多维数据分布和传统物理存储结构并行化等方法。
1.一维数据分布方法
一维数据分布方法是最简单的数据分布方法。它通过划分关系的一个属性的域值来划分整个关系,得到一组子关系,然后在多处理机之间分布这些子关系。主要包括:
(1) round-robin分布方法:把关系R的第i个元组ri存储到第(i mod P)个处理机上。如果关系R上的操作需要存取R的大量元组,则round-robin方法是分布R的最理想方法。但是,round-robin方法不能有效地支持具有低选择性谓词的查询。
(2) Hash分布方法: 首先需要指定关系的一个属性A为划分属性,然后定义一个以划分属性A的值域V为定义域的函数: H: V--〉{1,2,…,P},其中,P是处理机的个数。这个函数称为Hash函数。对于关系R的任意元组r,Hash分布方法把元组r存储到第H(r[A])个处理机上,其中r[A]表示元组r在属性A上的值。Hash方法既能有效地支持大数据量的存取操作,也能有效地支持在划分属性上具有低选择性谓词的数据操作。Hash方法不能保证数据均匀地分布在多个处理机上。数据的聚集存储(cluster)是很多应用所需要的。然而,Hash方法的目的是使数据随机地分布在各处理机上,与聚集存储恰恰相反。
(3) range分布方法:首先指定关系R的一个属性A(其值域为有序集合)为划分属性,然后,把A的值域划分为P个区间I0=[x0,x1],…,IP-1=[xP-1,xP],最后将R划分为P个子集合S1,…,SP,其中,Si={r|r∈R,r[A]∈Ii},Si分布到第i个处理机上。range分布方法不但可以有效地支持要求大数据量存取的查询和在分布属性上具有低选择性谓词的数据操作,也支持数据的聚集存储。但可能引起的问题是数据在处理机之间分布不均匀和工作负载不均匀的问题。
2. 多维数据分布方法
多维分布方法可以解决一维数据分布中存在不能有效支持在非划分属性上通过选择谓词来实现查询的问题。以下为常用的多维分布方法:
(1)CMD法: 是一种多维分布方法。首先将d-维空间[0,1)dS划分为多个d-维超立方体。把S各维的定义域[0,1)划分为长度为1/np的np个区间:[lki,hki]表示区间Iki。每个超方体是d个区间的笛卡儿乘积: