时间:2022-12-01 02:30:01 | 来源:信息时代
时间:2022-12-01 02:30:01 来源:信息时代
文本数据库 : 存储和管理大量文本信息的数据库系统,它提供对文本的表达、组织、存储和访问功能。文本数据库与传统数据库(如关系数据库)有很大的不同,传统数据库可以完全地反映一个企业/组织的各种信息,文本数据库则表示一个企业/组织的所有文本信息。文本数据库和传统数据库的差异源于文本信息的独特性。文本的独特性主要表现在以下方面:
(1)文本是自然语言的书写形式。不同的语言可能使用不同的文本字符集; 而不同的语言,词的概念也可能相差悬殊; 在有些语言环境下,句子的边界很难界定。
(2)文本是一种复杂的对象。这种复杂性首先表现在文本的组成部分之间存在层次和线性以及参照等关系; 其次,文本中普遍存在嵌入成分,比如脚注和引用等。
文本数据库中的文本是内容和结构的统一。内容为字符串;结构则表现为多级的层次或嵌套关系,且不同的文本实体的结构各不相同。而作为传统数据库主流的关系数据库,数据结构和内容是分开的,结构代表模式,内容为具体的数据记录。传统数据库中的操作是确定性数据查询; 文本数据库中的操作除了字符串的精确匹配外,更多的是基于语义相关的查询,这种操作带有不确定性。此外,文本数据库中的文本数据相对稳定,用户一般只是获取信息,不参与信息的更新。
文本数据库包含文本数据库模型、文本索引、文本压缩等关键技术。文本数据库模型定义文本的存取、访问方式以及相关约束;文本索引技术是为文本操作提供的具体实施技术; 文本压缩则是为了减少文本的存储空间。为了更好地挖掘文本数据库中的文本信息,又提出了文本分类、文本知识发现等新的技术。为存储、检索、挖掘以中文字符为主的中文文本数据,则引入了中文文本数据库。
目前国内外都已出现了不少商品化的全文数据库系统(个别称为全文检索系统,这是一种管理静态文本集的全文数据库,可以看成较低档的全文数据库)。国外影响较大的有:Knight-Ridder联机全文检索系统,Cornell大学研究开发的SMART系统,IBM公司的Lotus Notes系统,Microsoft公司的Index Server系统,Oracle公司的Intermedia。其中,IBM Lotus Notes系统和Microsoft Index Sever系统在许多方面均已达到较高的技术水准。Lotus Notes被称为新一代的文本数据库系统,它的基本元素就是文本,同时也可保存文本的结构化信息。它自动创建文本的全文索引,内置全文搜索引擎,当用户增加、删除、修改文本时,系统能够迅速完成全文索引的动态调整,还可以根据用户的需要对文本进行自动分类。