18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 概率推理模型(数据库)

概率推理模型(数据库)

时间:2022-12-22 18:30:01 | 来源:信息时代

时间:2022-12-22 18:30:01 来源:信息时代

    概率推理模型 : 一种采用贝叶斯公式进行推理计算的经典信息检索模型,在文本数据库中被广泛用于文本检索和文本查询。
1.概率推理模型
概率推理模型,亦称为二值独立检索模型,主要使用贝叶斯公式进行推理计算。概率推理模型与布尔模型,向量模型并称为三大信息检索模型。
信息检索模型是一个四元组(D,Q,F,R(qi,di)),其中: D是文本集合中一组文本的逻辑视图,称为文本表示;Q是一组用户信息需求的逻辑视图,称为查询; F是一种机制,用于构建文本表示、查询以及它们之间关系的模型: R(qi,di)是排序函数,该函数输出一个与查询qi∈Q和文本di∈D有关的实数,从而定义了一个顺序。
构建机制F基于概率论,并且排序函数R由概率运算和贝叶斯理论组成的信息检索模型,被称为概率推理模型。
主要思想是: 给定一个用户查询q和文本集合中的文本di,概率模型试图通过估计用户找出与文本di相关文本的概率,并使得总体的相关概率最大来判断相关文本集合。(相关文本就是用户查询中感兴趣的文本,一般指查询结果文本)概率推理模型的优点是: 理论上,文本可以根据它们的相关概率按递减顺序排列。主要缺点是: ①需要最初把文本集合分为相关集合和不相关集合两类。②未考虑文本中标引词的出现频率。③假设标引词相互独立。
根据贝叶斯定理:


文本词条的独立假设: P(A·B)=P(A)·P(B);当且仅当A与B相互独立。得出推论:如果文本中的各个标引词相互独立,则有

P(dj)=P(k1)…P(kt)


设标引词的权重为二值的,即: wij∈{0,1},wiq∈{0,1}。R表示已知的相关文本集(或最初的猜测集),表示R的补集,P(R|dj)表示文本dj与查询g相关的概率,P(|dj)表示文本dj与查询q不相关的概率。定义文本dj与查询q的相似度为:


根据贝叶斯定理有:


假设标引词独立,则有:


这是概率推理模型中排序计算的主要表达式。取对数,在相同背景下,忽略对所有因子保持恒定不变的因子,则有:


其中,p(ki|R)对所有的标引词ki是恒定不变的,通常取为0.5,即p(ki|R)=0.5。
不相关文本中的标引词ki的分布可以通过文本集中标引词的分布来估计,即


其中,ni表示包含标引词ki的文本数,N表示集合中的文本总数。
初始值确定后,根据与查询q相关的大小进行初步排序,取前若干个文本作为相关查询集合。之后通过如下方法进行改进(即开始递归计算):
用V表示概率模型初步检出并经过排序的文本子集,Vi表示V中包含标引词ki的文本数。改进p(ki|R)和p(ki|)的过程如下: 用已经检出的文本中标引词ki的分布来估计p(ki|R); 假定所有未检出的文本都是不相关的来估计p(ki|)。因此有:


如此递归重复这一过程,得到理想结果集合。对于较小的V和Vi,会出现计算问题,如V=1和Vi=0,可做一些改进:


2.概率推理模型的改进与分类
(1) 贝叶斯网络模型: 一种使用贝叶斯网络进行文本查询推理的概率模型。贝叶斯网络是一个具有概率分布的有向无环图(DAG),它是由结点和有向弧段组成的。其中的结点代表事件或变量,弧段代表结点之间的因果关系或概率关系,而弧段是有向的,不构成回路。
(2)推理网络模型: 一种基于认识论观点的概率网络模型。概率论中两大学派分别以频率论和认识论的观点为基础。频率论的观点是将概率看成是与概率定律相关的统计; 认识论的观点是将概率理解为一种信任度。推理网络模型是基于认识论的,它将随机变量与标引词、文本及用户查询联系在一起。对文本di相关的随机变量表示为对这个文本观测的事件。对文本di的观测可以为标引词的随机变量给出一个信任度。标引词变量和文本变量用网络中的结点表示,文本结点和对应的标引词结点之间以有向边连接。通过观测文本的出现,来增加网络中对应标引词的信任度。
(3)信任度网络模型: 一种推理网络模型的扩展。信任度网络模型采用一个明确定义的样本空间,因此其网络拓扑结构略微有别于推理网络模型。在信任度网络中,文本部分和查询部分是相互分离的。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭