数据仓库索引(数据库)
时间:2022-11-14 20:30:01 | 来源:信息时代
时间:2022-11-14 20:30:01 来源:信息时代
数据仓库索引 : 为提高数据仓库性能而引入的一类特殊的数据结构。在每种数据仓库管理系统中都提供了各种各样的索引机制来提高查询性能,如位图索引、连接索引和广义索引等。位图索引(bitmap index)是数据仓库常用的索引技术。位图索引的基本设计思想是:在给定属性的位图索引表中,属性域中的每个不同取值,都由一个相应的位向量来表示。如果给定的属性域包含n个值,则在位图索引表中每行就包含n个比特位。假设在基本表中给定行的属性取值为v,并且v是该属性的第k个取值,则在位图索引表的对应行的第k列取值为1,该行的其他列取值为0。图1给出了位图索引的示例。
图1 位图索引
对于基数较小的属性而言,如“性别”属性只有两种取值(男、女),则位图索引的空间开销较小,跟其他索引(如哈希索引、树索引等)相比具有较大的优势。基于位图索引,比较、连接和聚集等操作均可转换成位运算,将节省大量的I/O操作和空间消耗,大大减少运算的时间。对于基数大的属性,可以对位图采用数据压缩技术。
连接索引(join index)可以被看成是一种“预先连接”,非常适用于支持复杂的查询操作。连接索引的创建来自于两个关系数据表的可连接行。如果两个关系R(RID,A)和S(B,SID)在属性A和B上连接,则连接索引记录包含(RID,SID)对,其中RID和SID分别是关系R和S的记录标识符。连接索引记录能够识别可连接的元组,则在查询中不必执行连接操作。例如,在一个星型模式中,事实表sales、维表location和item三者之间的连接关系如图2所示。他们的连接索引表如图3所示。
图2 sales与location和item之间的连接关系
图3 sales与location和item三者之间的连接索引表
广义索引,又称创造性索引或创造性概要文件,它是针对数据仓库极少修改的特点而引入的索引技术,是对最终用户感兴趣的数据项建立一个概要文件。广义索引的定义通常在数据仓库元数据中予以完整描述,其内容是当数据由操作型环境加载到数据仓库环境时生成,计算或建立索引的开销很小。广义索引主要用于极(最)值问题的查询,例如“本月销售量最大的前10种商品”,“本年度交易次数最少的前50个账户”和“最近的5笔发货”等。