时间:2022-12-02 10:30:01 | 来源:信息时代
时间:2022-12-02 10:30:01 来源:信息时代
信息检索模型 : 对文档和查询进行表示以及对它们之间的相关性进行描述的模型。它由三元组F[D,Q,R(qi,dj)]表示。其中D是文档的表示,Q是查询的表示。R(qi,dj)是一个排序函数,该函数输出一个与查询qi∈Q和文档表示dj∈D关联的实数。这样就在文档之间根据查询qi定义了一个按相关性高低排序的顺序。通过构建检索模型,可以度量用户查询请求与文档集之间的相关性,并根据相关性对检索结果排序。
由于早期的(或是传统的)信息检索是对纯文本信息进行检索,各种信息检索模型也是在检索文本文档的基础上发展成熟的。为了实现信息检索,用户查询和文档集合都需要转换成某种内部表示形式。检索系统根据查询表示,对文档集合中的所有文档进行相似性匹配,获取与用户查询相关的文档。
按照相似匹配度量模式的不同,可以分为两大类,全文(full-text)检索和内容型(content-based)检索。全文检索是以从文档中找出与查询表示的字符串完全一致的部分为目的,检索结果返回包含查询字符串的文档及其位置。在内容型检索中,不必像全文检索那样进行完全一致匹配,而是着眼于找出与查询语义相似的文档。
全文检索模型又可以分为两种类型: 一个字符一个字符地与文档中字符匹配的顺序检索(sequential search),和采用事先由文档(字符或是词汇)建立的索引(index)进行索引检索(index search)。实现全文检索的模型有: 布尔模型(boolean model)、基于半无限字符串模型(semi-infinite string)、字符串匹配模型等。
在内容型检索中,需要提取一组描述文档内容的词汇,称为索引项(term),用索引项的出现次数等来表示文档和查询请求。计算文档和查询请求间的相似度并依据大小排序输出检索结果。实现内容型检索的模型有: 向量空间模型(vector space model)、概率模型(probabilistic model)、网络模型(network model)等。
表1是几种信息检索模型不同的内部表示及匹配方法对照表,在实际应用中,不同模型可以混合使用以求得最佳检索效果。此外,对于各种模型都有不同的改进模式。例如,布尔模型为二元逻辑,没有对索引项采用加权处理,检索出的文档与查询请求要么相关要么不相关,无法进行相关性排序。扩展布尔模型则在布尔模型的基础上,结合向量空间模型的局部匹配、索引项加权等思想实现了检索结果的相关性排序。改进的模型还有模糊布尔模型、广义向量空间模型和潜在语义索引模型、神经网络模型、推理网络模型等。
表1 信息检索模型不同的内部表示及匹配方法对照表
检索 模型 | 文档内 部表示 | 检索查询 内部表示 | 匹配 方法 |
向量空间模型 | 索引项 权重向量 | 索引项 权重向量 | 向量间相 似度计算 |
布尔模型 | 签名文件 | 签名文件 | 逻辑运算+ 顺序查找 |
倒排文件 | 检索词逻辑 表达式 | 逻辑 运算 | |
基于半无限字符串 (semi-infinite string) 的模型 | PATRICIA TRIE | 字符串 | 树查找 |
PAT数组 | 字符串 | 二分查找 | |
字符串匹配 | 无 | 无 | 字符串间 的比较 |