18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 情报数据库的文档结构(数据库)

情报数据库的文档结构(数据库)

时间:2022-11-07 02:30:01 | 来源:信息时代

时间:2022-11-07 02:30:01 来源:信息时代

    情报数据库的文档结构 : 情报数据库中每条记录的编排方式,主要有四种文档结构,即流式文档、顺排文档、索引文档和倒排文档。
(1)流式文档:一种最简单的文档结构。它在文字上没有排列顺序,连续地存放数据记录,不考虑各记录间的相互关系。表1所示即为一个流式文档。由于这种文档结构中记录的排列顺序可以任意,因而,当把新记录插入该类文档时,可以把新记录增加到文档的最后,无需改变文档中原有记录的顺序。在流式文档中无法预先知道目标记录所在位置,检索系统需要顺序查找整个文档,因而检索效率较低,平均需要匹配(n+1)/2次才能检索到目标记录,这里n代表文档中记录的数目。

表1 流式文档


位置号作者题名主题词
1张立公计算机情报技术导论计算机,情报学
2赖茂生计算机情报检索计算机,情报检索
   
M康耀红现代情报检索理论情报检索,方法论
   
P张琪玉情报语言学基础情报检索,语言学
新记录邹志仁信息学概论情报学


(2)顺排文档:又称为链式文档或线性文档,文档中的全部记录按顺序存放,记录的物理位置由键值决定。与流式文档相比,两者具有相同的逻辑单位,只是流式文档没有特定的顺序。表2所示即为一个按照作者姓氏笔画顺序排列的顺排文档。当把新记录插入该文档时,要按照原先的顺序存放到适当的位置上,具体的做法是自插入位置起,其后的记录要向后移动。由于顺排文档是按照键值的顺序排序的,因而其检索效率可以大大提高。一种典型的方法是折半查找法(即二分查找法),这种方法可以把所需的检索步骤减少到log2(n+1),即对一个包含1023条记录的文档,使用折半查找法,平均只需匹配10次即可找到目标记录,若用顺序扫描的方法来查找,则平均需要512次匹配。

表2 顺排文档


位置号作者题名主题词
1康耀红现代情报检索理论情报检索,方法论
2赖茂生计算机情报检索计算机,情报检索
   
新记录H邹志仁信息学概论情报学
   
J张立公计算机情报技术导论计算机,情报学
K张琪玉情报语言学基础情报检索,语言学
   


(3)索引文档:文献在情报数据库中的存储可以分为两个区: 数据区和索引区。数据区存放文档记录,称为主文档。索引区存放记录相应字段的索引信息,指出记录在数据区的存储地址,称为索引文档。在顺排文档中,如果检索字段不是顺排文档排序所依据的字段,此时折半查找算法将无法使用。在顺排文档的基础上建立索引文档则可以显著提高检索系统的响应速度,因为使用索引文档,对于某一特定文献的查找,仅需查找一次索引和一次主文档即可。例如,表3就是针对表2在姓名字段上建立的音序索引,用户在检索时,只需要给出作者姓名拼音,然后就可以在这个索引中快速找到记录的存储位置。

表3 顺排文档的索引


作者姓名音序文献位置
Kang1
Lai2
ZhangJ


(4)倒排文档:这是一种特殊的索引文档,它将记录中所有的可检字段或属性值(如作者、题名、主题词等)抽出,按照某种顺序重新加以组织后得到的一种文档。倒排文档与顺排文档的区别在于,顺排文档是以完整记录作为处理和检索的单元,倒排文档则以记录中的字段作为处理和检索的单元。表4、表5是表2顺排文档的倒排文档。

表4 主题词倒排文档


主题词记录号
方法论1
计算机2,J
情报检索1,2,K
情报学H,J
语言学K
 


表5 作者倒排文档


作者记录号
康耀红1
赖茂生2
邹志仁H
张立公J
张琪玉K
 


倒排文档可以实现对文献的快速查找,因为只需检查索引就可以确定哪些文献是与查询请求相关的,而不是查找真正的文献。此外,索引是按关键字值的顺序排列的。例如,用户要查询关于“情报检索”方面的主题,就可先检查索引来确定“情报检索”主题的位置。在表4的例子中,就把条目1、2、K识别出来,作为检索的候选条目。文档中记录的组织方式对检索效率影响很大,与顺排文档相比,使用倒排文档要高效得多,不过倒排文档的建立和维护开销较大。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭