时间:2022-12-09 02:30:01 | 来源:信息时代
时间:2022-12-09 02:30:01 来源:信息时代
中文文本数据库系统 : 存储和管理大量中文文本信息的数据库系统,它提供文本的表达、组织、存储和访问功能。
1. 中文文本数据库的功能
概括地说,中文文本数据库系统的功能结构包括管理和信息服务两大功能。从管理上讲,包括文档管理和索引管理,主要表现为文档的增、删和改以及由此引起的动态索引维护。索引的建立与维护涉及内容索引和结构索引; 结构索引既有文档内部结构索引,又有文档类别结构索引。由于文本信息量的急剧膨胀,中文文本数据库对文档的管理不能仅限于平面式的管理,而应该是多层次的,根据文档类别的层次结构进行管理无疑是一种有效的方法。信息服务是中文文本数据库的主要功能,中文文本数据库系统应该支持:
(1)对中文文本数据库和文档的浏览:一个中文文本数据库包含大量的文档。文本信息按如下层次结构组织:文档类别→文档→篇章→节→段→字符。在用户没有明确的查询需求下,浏览能够使用户对数据库中的文本信息有一个粗线条式的了解。
(2)基于不同文档层次或文本粒度的检索: 例如,对文档类或文档篇章进行检索等。
(3)基于不同模型的文本检索:包括基于精确匹配的全文检索和基于向量空间模型的相关检索。
(4)文档处理:包括文档分类和文档聚类。分类和聚类一方面是文档管理的需要; 另一方面是帮助文本检索。
(5)文本内容的多视图表现:即在不同的层次上表现文本内容。
2. 文本数据库的操作模式
在文本数据库中,由于引入了文档的结构和文档结构类型,使得文本数据库有了模式的概念。一个文本数据库具有相对固定的层次结构,也就是模式。但是,文本数据库中的文本内容可以千变万化。用户通过文档结构类型访问文本信息,无需关心文档的索引模型与结构。对用户来说,只需给出查询目标和条件,就可以获得所需的信息,而不用确切知道文本结构和内容的索引模式。文本数据库系统的这种特性,使文本数据具有逻辑独立性。
通常,用户对文本数据库的操作模式主要是浏览和检索。浏览是一种粗略的检索,检索则是一种比较精细的信息获取。两者互为补充,且在操作上是互动的。具体操作方式有: ①单纯的浏览; ②单纯的检索; ③先浏览,后检索; ④先检索,后浏览;⑤边检索,边浏览。
文本数据库系统提供独立的浏览和检索环境(界面)。检索环境(界面)既有面向查询语言的,又有面向按钮操作的。
3. 文本的事务处理
对于文本数据库来说,文档的增、删与改是不可避免的,而且会经常发生,对于一个成功的文本数据库系统来说,事务处理是难以回避的。在文本数据库中,增加或删除一个文档,涉及大量的索引信息的更新,其中包括全文索引和结构索引。与此相对应,在关系数据库中,修改一个记录,所涉及的数据更改量和影响的范围要少得多。从这一意义上讲,可以称文档更新事务为“重”事务,而传统数据库中的数据更新事务为“轻”事务。尽管文本数据库事务具有“重”和“长”的特点,但文本查询还有另外一面: 对于相关查询来说,由于本身具有不确定性。因此,在查询过程中,读些脏数据对查询结果影响并不十分严重。因此,可以对事务进行一些简化处理。
4. 中文文本处理
(1)中文的特殊性:中文与英文等文本有着不同的特点,这是区别中文文本数据和其他英文文本数据库的特征。中文与英文的主要区别有: ①汉语不同于英语、德语、法语等印欧语言。英语等在书写时,词与词之间用空格分开,因而词与词之间的界限在书面上是十分明显的。而汉语在书写时,词与词之间不留空白。一个汉语句子就是一大串前后相继的汉字的字符串,词与词之间没有明确的界限。中文文本中词与词之间没有间隔,且中文词的定义和取舍没有公认的结果,因此无法直接应用英文系统中的按词索引方法;②中文词没有形态变化,因此我们不用关心英文系统的较繁琐的词形转换技术;③中文字符数量比英文字符要多得多,因此某些索引模型,比如Pat树会变得很庞大,不适宜用于中文文本。
(2) 中文分词:词是语言中最小的能独立运用的单位,利用计算机把汉语的一个句子、一篇文章、一部著作中的单词,逐一地切分出来,才有可能对汉语进行进一步分析。在汉语的自然语言处理中,凡是涉及句法、语义的研究项目,都要以词为基本单位来进行。句法研究组词成句的规律,没有词就谈不上有句,因而也就无所谓句法。语义是语言中的概念与概念之间的关系,而词是表达概念的,没有词也就无所谓语义研究。因此,词是汉语语法或语义研究的中心问题,也是汉语自然语言处理的关键问题。正因如此,中文分词是中文信息处理系统的基础,有着广泛的应用。在文本校对、简体/繁体转换、拼音标注、语音合成、文本检索、文本分类、自然语言接口和自动文摘等方面,无处不渗透着分词系统的应用。
现有的分词算法可分为三大类: 基于字典匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字典匹配的分词是按照一定的策略将一段汉字串与一个预先准备好的汉语词典中的词条进行匹配,若在词典中找到某个字符串,则识别出一个词。基于字典分词方法按照匹配方向可以分为正向匹配(按照汉字书写顺序从高左到右匹配)、逆向匹配(从右到左匹配)、双向匹配(先从一个方向匹配,再同另外一个方向匹配)。按照匹配字串方法,可以分为最长匹配和最短匹配。虽然基于词典的分词算法的分词准确率不够理想,但是算法的效率高,比较适合实施分词和大规模分词。事实上,基于词典的方法在实际中文处理系统中,例如,中文文本数据库和搜索引擎中得到了大规模的引用。理解式分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。基于统计的分词方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定的阀值时就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。但这种方法也有一定的局限性,会经常抽出一些共现频度高,但并不是词的常用字组,并且对常用词的识别精度差,时空开销大。