18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 文本检索(数据库)

文本检索(数据库)

时间:2022-11-29 22:30:01 | 来源:信息时代

时间:2022-11-29 22:30:01 来源:信息时代

    文本检索 : 一种基于文本的信息检索技术。文本检索的目的是对用户的请求给出相关的资料。
1. 文本检索
评价文本检索系统性能的一个关键概念是“相关性”(relevance)。它是用来判断获取的文档集合对于用户需求满足的程度。相关性是一个主观的概念。相关性的度量不仅仅依赖于用户的查询和所搜索的文档的集合,还与用户的个人需求、偏好、知识、语言等有关系。通常将“查准率”和“查全率”这两个指标共同用来衡量检索系统的性能。查准率表明系统的精确性。查全率反映了系统的覆盖性。
查准率(precision): 是信息检索的性能指标,定义为被检索到的相关文档数除以所有要检索的文档数。
查全率(recall): 是信息检索的另一个性能指标。定义为查找到的相关文档数除以集合中全部相关文档数的值。
在实际应用中,有些用户更加注重查准率,而另外一些用户更加注重查全率。文献引用了一个综合查全率与查准率的指标E来衡量系统的性能。

其中,P是查准率,R为查全率,α是一个0~1的参数。α为0的时候,只考虑查全率,α为1的时候只考虑查准率。
查准率比较易于度量。对于所获取的文档集合,只要判断每一篇文档是否和给定查询相关就可以了,其计算是比较直接的。而对于查全率的计算就相对困难一些,因为这意味着对于给定查询,必须计算整个文档集合中相关文档的数目。当文档集合过大时,这是不可行的。
2.文本检索模型
常用的文本检索模型主要有三个:
(1)布尔逻辑模型:是最简单的检索模型,也是其他检索模型的基础。设文本集D=(d1,d2,d3,…,dn),其中di(i=1,2,…,n)为文本集中某一文档;又设Ti=(ti1,ti2,…,tim)为di的标引词集合,则对于形如Q=W1∧W2∧…∧Wk的检索式,如果W1∈Ti,W2∈Ti,…,Wk∈Ti,则di为查询Q的命中文档,否则di为Q的不命中文档; 而对于形如Q=W1∧W2∧…∧Wk的检索式,如果至少存在某个Wj∈Ti(j=1,2,…,k),则di为Q的命中文档,否则di为不命中文档。用户根据所检索关键字在检索结果中的逻辑关系递交查询,查询模块根据布尔逻辑的基本运算法则来给出查询结果。布尔检索模型原理简单易理解,容易在计算机上实现并且具有检索速度快的优点。但是最终给出的查询结果没有相关性排序,不能全面反映用户的需求。
(2) 向量空间模型:将文档映射为一个特征向量V(d)=(t11(d);…;tnn(d)),其中ti(i=1,2,…,n)为一列互不相同的词条项,ωi(d)为ti在d中的权值,一般被定义为ti在d中出现频率tfi(d)的函数,即ωi(d)=Ψ(tfi(d))。在文本检索中常用的词条权值计算方法为TF-IDF函数其中,N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式:


根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小; 另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为


进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型: 当ti在查询条件Q中时,将对应的第i坐标置为1,否则置为0从而文档d与查询Q的相似度为


在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。
(3)概率检索模型:是在布尔逻辑模型的基础上为解决检索中存在的一些不确定性而引入的。概率检索模型有多种形式,常见的为第二概率检索模型,首先设定标引词的概率值,一般是对检索作业重复若干次,每一次检索用户对检出文档进行相关性判断。再利用这种反馈信息,根据每个词在相关文档集合和无关文档集合的分布情况来计算它们的相关概率,将词的权值设计为:

其中,P、P′分别表示某词在相关文档集和无关文档集中出现的概率。某一文档的权值则是它所含的标引词权值之和,于是,文档d与用户查询Q相关概率可定义为:

其中,pw和p′w分别为w在相关文档和无关文档中的概率。上式中右边和式是对所有出现在文档d和查询Q中的词w求和,即w∈d∩Q。
概率模型有严格的数学理论基础,它采用相关反馈原理来克服不确定性推理的缺点,如难以估计参数,文件和查询的表达较困难等。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭