时间:2022-11-28 14:30:01 | 来源:信息时代
时间:2022-11-28 14:30:01 来源:信息时代
文本信息检索 : 根据相似匹配度量模式,将用户的查询请求与文本文档集合中的内容进行相似度比较,查找出一组相似度高的信息反馈给用户的一种信息检索。
在文本信息检索中,常常用文档中含有的词汇集合来近似表示文档的内容。但并不是全部词汇都可以用来描述文档。例如,汉语中的“的”、“和”,英语中的冠词、前置词等一类词汇一般情况下可以认为与文档内容无关。因此,用一组词汇近似描述文档时,提取能够描述文档内容的特征词就显得极为重要。我们称这种特征词为索引项(indexing term),从文档中提取索引项的处理称为索引(indexing)。索引方法一般有两种: 人工索引(manual indexing)和自动索引(automatic indexing)。人工索引是指人工从文档中提取出重要的特征词。当处理大量的文档集合时,需要多人提取各自认为是重要的文档特征词的工作,这就难以保证文档特征词的一致性。此外,人工提取成本太高,自动索引也就应运而生。自动索引就是计算机自动地从文档中提取特征词。
通常,索引项用文档中出现的单词表示。因此,为了从文档中提取索引项首先就要确定构成文档的连续字符中的哪一部分是单词。单词的确定随书写文档的语言不同处理方法极为不同。英语、法语等欧美语言由于词与词之间有空隔分隔,单词确定较为容易,而汉语、日语等语言因为词间无空格,确定单词本身就极为困难。对于汉语、日语等词间无间格的语言,为了能正确提取单词需先进行词法分析(morphological analysis)。词法分析是将构成文档的字符序列分割成单词,并对各个单词赋予词性和词形变化等信息。在词法分析中,既有用文档中的词与词典中单词进行匹配来确定单词的方法,也有先从大规模文本文档数据库中求出字符或词的出现概率,再根据求得的概率确定单词的方法。文档的索引单位除单词之外,还有许多其他的索引单位。典型的方法是,从字符序列开始,一字字地向右取,取N个字符的N元组索引(N-gram indexing)方法。特别是,当N=1,2,3时,分别称为单元组(unigram),即按字索引方法、双元组(bigram)和三元组(trigram)索引。在提取索引项时,一般还需进行停用词处理、词干提取(stemming)等技术。
索引项加权是对各个索引项赋予使查全率和查准率提高的权重。为了提高查全率,尽量为多数文档中的高频索引项加较重的权值;为了提高查准率,尽量为只在少数特殊的文档中出现的索引项加较重的权值。设有n个文档D1,D2,…,Dn从这些文档中共提取了m个索引项w1,w2,…,wm。索引项wi在文档Dj中的权重dij按以下三项指标:局部权重lij(local weight)、全局权重gi(global weight)、文档规范化系数nj(document normalization factor)加权。即,索引项的权重用上述三项指标按下式计算:
dij=lijgi/nj。