18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 文本模型(数据库)

文本模型(数据库)

时间:2022-11-30 04:30:01 | 来源:信息时代

时间:2022-11-30 04:30:01 来源:信息时代

    文本模型 : 文本数据库系统的基础,又称文本数据库模型(text database model)。由文本的结构和文本的内容两部分构成:
1. 文档结构(document structure)
一种文档结构就是一种文档视图。文档查询语言通常是基于某一种具体的文档结构。下面给出了三种文档结构。
(1) 固定结构:在固定结构的文档视图下,一个文档由多个固定的域构成,每个域包含具体的文本。比如一张表单,域是无序、不重复的,域间不允许重叠和嵌套。查询针对某一个域或几个域进行。可以说,目前大多数的文本检索系统就是基于这样一种文档结构模型。如果文档可以严格地划分为固定的域,而且各个域不只限于文本,也可以是数字、日期等基本数据类型,对文档的查询针对所有的域进行,则这种文档结构模型实际上就是关系模型。一个文本数据库相当于一张表,表中的每一行对应于一个文档,而每一列则对应于文档的一个域。这种模型导致关系模型和文本检索模型的结合。
(2)超文本: 从结构上看,超文本是最自由的。一个超文本库相当于一个有向图,每个结点包含有文本和该结点与其他结点的连接以及该结点内部不同位置之间的连接。Web的发展使得超文本成为当前一种主要的文本表现方式。
(3)层次结构:层次结构是一种处于固定结构和超文本之间的文本结构模型。这种结构模型更自然、真实地反映了文档的内在结构特征。
2.基于结构和内容的文本数据库模型。
(1)文档层次结构(document hierarchy structure)Hd:指构成文档内容的各组成部分之间的结构关系。这种结构既符合文档的结构特征,也符合人们的习惯。一个文档层次结构对应一棵倒置的树,树结点代表文档结构元素; 树枝表示所连接的上下对应结点之间的包含与被包含关系。文档层次结构树中同一结点下的各个子结点的排列顺序对应于这些子结点所代表的文档内容在文档中出现的顺序。同一结点下的各个子结点的排列顺序对应于这些子结点所代表的文档内容在文档中的出现顺序,但表现为存储数据时不能直接显现出来。
(2)固定结构:文档层次结构树中的每一结点都有一个隐含的位置属性,该属性用于表示该结点代表的文档内容在文档中与其他兄弟结点(和它具有相同的父结点)所代表的文档内容的物理空间位置关系。这一属性在文档入库时被赋值。
(3) 文档类层次结构(document category hierarchy structure)Hc: 指文档内容所反映的主题类别构成的层次关系。文档类层次结构也可以用一棵树表示。树结点代表具体的类别;树枝表示所连接的上下对应类结点之间的父子关系。和文档层次结构不同,文档类层次结构中兄弟类结点之间不存在顺序关系。
(4)文本数据库层次结构(text database hierarchy structure)H: 由文本数据库中文档层次结构Hd和文档类层次结构Hc所构成。由于文档层次结构和文档类层次结构都对应于一棵树,所以文本数据库层次结构也对应于一棵树,称为文本数据库层次结构树。
文档结构类型: 把文本数据库层次结构树中的每一结点作为一种文档结构数据类型,简称文档结构类型。设根结点为n1,对于任意一结点ni,若从n1到ni的层次路径上的其他结点依次为n2,n3,…,ni-1,则ni对应的文档结构类型表示为n1,n2,…,ni。用T表示文本数据库层次结构树H中全部文档结构类型的集合,它由两部分构成,一部分来自于文档类结构树Hc;另一部分来自文档结构树Hd,它们分别记为Tc和Td,因此有: T=Tc∪Td。若d是类型t(t∈T)的一个数据实例,则表示为d:t。
(5)父类型、子类型、基类型:若有两个文档结构类型t1和t2,t1=n1,n2,…,ni(i≥1),t2=n1,n2,…,nj(1≤j≤i),则称t2为t1的父类型,或者t1为t2的子类型。进一步地,若i≠j,则t2为t1的真父类型,或者t2为t1的真子类型; 若i=j+1,则t2为t1的直接父类型,或者t1为t2的直接子类型。没有真子类的文档结构类型称为基本文档结构类型,简称为基类型。所有的基类型实际上就是字符串类型。若结构类型t的全部直接子类型为{t1,t2,…,tn},则记为t={t1,t2,…,tn};若有数据实例d=(d1:t1,d2:t2,…,dn:tn),则d为t的一个数据实例。需要特别指出的是: ①在Tc中,各文档结构类型管理的数据对象是文档,即文档是最小的数据单元;而在Td中,各文档结构类型管理的数据对象为满足一定边界条件的字符串。在这里,文档是最大的数据单元。②在Tc中,文档结构类型和文档类是等价的。Tc中具有父子关系的文档结构类型所管辖的文档数据对象(即文档)并不存在父子关系,但它们管辖的文档集合具有包含关系——子类型对应的文档集合包含在父类型对应的文档集合之中;而在Td中,具有父子关系的文档结构类型在同一文档实例中所对应的文本内容(即字符串)具有父子(包含)关系。
3.包含、存在与相关
在文本检索中,判断某一词是否出现在文档中,或者文档的某一部分内容是否包含在另一部分之中,这些都是文本数据库常有的操作。为此,给出有关包含、存在与相关的定义。
(1)包含: 给定Td中的两个文档数据实例d: t和d=(d1:t1,d2:t2,…,dn:tn):t′,若d:t包含在d:t′中,记为d:td′:t′,则应满足如下条件之一:①d:t=d′:t′;②d:t⊂d′:t′(1≤i≤n)。
(2)存在: 给定一个词w和Td中的一个文档数据实例d:t, 若w存在于d中, 记为w∃d, 则应满足如下条件之一:
①t为基类,w是串d中的一个词;
②存在d:t⊂d′:t′, 且w∃d′了。
相邻:给定Td中的数据实例d=(d1:t1,d2:t2,…,dn:tn),若di:ti和dj:tj(1≤i,j≤n)在文档中所处的空间位置是邻接的,则di:ti和dj:tj满足相邻关系,记为(di:ti)↑(dj:tj)。若di:ti在dj:tj之前,则有(di:ti)<(dj:tj);反之,(di:ti)>(dj:tj)。
(3)相关:相关指两个文档数据对象的文本内容在语义上的相似关系。预先给定一个相似性测度函数Sim和一个最低相似度门限值min_S,对于Td中的两个文档数据实例d1:t1,和d2:t2,若它们的相似度Sim(d1,t1)≥min_S,则d1:t1和d2:t2是相关的。
目前对相似度的估算要么基于向量空间模型,要么基于概率模型。不管是哪一种模型,文档数据对象的内容必须映射到同一表示空间,或者说同一文档属性空间。
4.文本数据库模型的定义
一个文本数据库D可以表示为一个四元组(H,T,C,E),其中,H为文本数据库层次结构,H=Hd∪Hc; T为文档结构类型的集合,T=Td∪Tc; C表示文本数据库的内容,为文本数据库中所有文档数据实例的集合,即C={d:t|t∈Td},∑为构成文档内容的字符集。若(d1:t1,d2:t2,…,dn:tn):t∈C,则有di:ti∈C(1≤i≤n); 若t有真父类型存在, 则一定有d′:t′∈C, 且d:t⊂d′:t′; 若有di:ti∈C, 则一定有d:Doc和c:tc(tc∈Tc)存在, 且有di:ti⊂d:Doc和d∈c。
文本数据库定义中定义了数据的一致性和完备性: ①若一个文档数据对象在库中,则它所有的子对象也在库中; ②若库中的一个文档对象有父对象存在,则库中至少有一个文档对象包含它;③对于库中的任意文档数据对象di,必有一个文档对象d(Doc类型)和文档类c存在,d包含di且属于c类中。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭