时间:2022-11-08 00:30:01 | 来源:信息时代
时间:2022-11-08 00:30:01 来源:信息时代
全文数据库 : 将经典著作、学术期刊、重要的会议录、法律法规、新闻报道以及百科全书、手册、年鉴等的全部文字和非文字内容转换成计算机可读形式的数据库,简称全文库。1973年,美国米德公司建成了世界上第一个面向公众查询的大型全文数据库Lexis,标志着一个新的情报检索领域的诞生。20世纪80年代中期开始,国外全文数据库的建设呈现出迅猛发展的势头,据统计,在美国,全文数据库占所有数据库的比例从1985年的28%增加到1995年的52%,其数量是书目文献数据库的两倍,而书目文献数据库所占的比例则从57%下降到24%。国外的全文学术期刊数据库已经分布到各个学科领域,例如Wiley InterScience、SpringerLink以及PQDD(Pro Quest Digital Dissertation)等不一而足。目前,国内已有“中国学术期刊全文数据库”、“书生之家数字图书馆”和“超星数字图书馆”等图书、期刊全文数据库建成投入使用。与其他类型的数据库相比,全文数据库的检索需要一些独特的支撑技术,比如针对中文文本的自动分词技术以及自动标引技术:
1. 自动分词技术
与英语等语言不同,汉语词与词之间没有空格等标记,要实现全文数据库的检索,首先需要做的工作就是分词。词是最小的、能独立活动的、有意义的语言成分。可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
(1)基于字符串匹配的分词方法:这种方法又叫做机械分词法,它是按照一定的策略将待分析的汉字串与机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配; 按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配; 按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。具体的方法主要有以下几种:
最大匹配法(maximum matching method,MM法): 在计算机中存放一个已知的词表,这个词表叫做底表,从被切分的语料中,按给定的顺序截取一个定长的字符串,通常为6~8个汉字,这个字符串的长度叫做最大词长,把这个具有最大词长的字符串与底表中的词相匹配,若匹配成功,则可确定这个字符串为词,然后指针向给定的方向移动与已经识别出的词长相应个数的汉字,继续进行匹配,否则,则把该字符串逐次减去一个字符,再与底表中的词进行匹配,直到成功为止。MM法的优点是原理简单,易于在计算机上实现,实现复杂度比较低,缺点是最大词长难于确定; 如果定得过长,则算法的时间复杂度显著提高,如果定得太短,则不能切分长度大于它的词,导致切分正确率降低。
逆向最大匹配法(reverse maximum matching method,RMM法):这种方法的原理与MM法相同,不同的是切词的扫描方向,如果MM法的方向为从左向右取字符串进行匹配,则RMM法的切词方向就是从右到左取字符串进行匹配。
其他的基于字符串匹配的方法还包括: 逐词遍历匹配法、双向扫描法、最佳匹配法以及设立切分标记法等。
对于机械分词方法,可以建立一个通用模型,形式化地表示为ASM(d,a,m),即automatic segmentation model。其中:
d: 匹配方向,+1表示正向,-1表示逆向;
a: 每次匹配失败后增加/减少字串长度(字符数),+1为增字,-1为减字;
m: 最大/最小匹配标志,+1为最大匹配,-1为最小匹配。
例如,ASM(+,-,+)就是正向减字最大匹配法(即MM方法),ASM(-,-,+)就是逆向减字最大匹配法(即RMM方法),等等。对于现代汉语来说,只有m=+1是实用的方法。
(2)基于理解的分词方法:通常的分析系统都力图在分词阶段消除所有歧义切分现象,而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分: 分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段,联想-回溯法就是其中的一种。
(3)基于统计的分词方法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息为:M(X,Y)=logP(X,Y)/(P(X).P(Y))。其中,P(X,Y)是汉字X、Y的相邻共现概率,P(X)、P(Y)分别是X、Y在语料中出现的概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能是一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
目前,无论哪种分词方法都不能完全消解歧义切分,因此,自动分词还需要做的一个非常重要的工作就是消解歧义。
2. 自动标引技术
常用的自动标引技术包括:
(1)词典法标引:包括部件词典法、关键词词表法,停用词表法等多种方法。部件词典标引在全文检索系统中运用较多,所谓部件词典是指由许多“部件词”及其“词性”组成的表。由于现代汉语中的绝大部分词都可由一字词和二字词组配而成,故用体积很小的一个“二字部件词典”和一个“一字部件词典”就可以代替庞大的词库,然后依据该词典对全文进行抽词,再按照词性组配连接组词,最后完成标引。
(2)单汉字标引: 由于中文语法复杂,因此中文词处理的难度较大。而中文文本中单个汉字是构成词、句、段、节、章的基本单元,具有无穷的组配能力。基于此,国内学者以单汉字作为计算机处理的自然单元,对全文的单汉字进行索引,将标引与检索的基本单元从词降到字一级,利用相邻度、通配符检索等功能将汉字组合成词,从而绕过词的切分问题。
(3)特殊标引:①属性标引:即在标识标引词时,同时注明该词的属性。词的属性有人名、地名、年代等,分别用一个字母来代表一种属性。②加注标引: 即在全文文本中对上下文隐含的人名、地名、年代等知识项的代词、尊称等加以注解说明。加注标引可以充分提供检索入口点,挖掘文献的信息含量,节省检索者的智力劳动。