18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 信息检索(数据库)

信息检索(数据库)

时间:2022-12-02 06:30:01 | 来源:信息时代

时间:2022-12-02 06:30:01 来源:信息时代

    信息检索 : 信息检索包括信息的表示、存储、组织和存取。信息检索的目的是使用户的查询能够从大量的信息中找到满意的相关结果。信息检索的处理对象是文档(document)资源,文本(text)是文档的一种典型的形式,但文档并不仅仅只有文本。在信息检索中,把文档看作一个检索单元,把组成检索对象的多个文档称为文档集合(document collection)。用户可以通过自然语言或是关键词(keyword)表达检索需求,用户提交的检索需求称为一个查询(query)。另外,对于多媒体资源的视听特性的查询,仅有关键词查询还不够,用户还可以提交示例查询(query by example)。例如,一幅图像或一段音乐。用户的信息需求首先用查询的形式输入到检索系统中,检索系统将用户查询转换成内部表示的同时,与文档集合的内部表示进行比较匹配,输出一组与用户信息需求相关的文档。如果用户对结果不满意,可以适当调整查询并进行再次检索,系统通过相关反馈(relevance feedback)技术使检索结果尽量满足用户需求,如此反复进行,直到用户终止检索为止。
早期的(或是传统的)信息检索是对纯文本信息进行检索,各种信息检索模型也是在检索文本文档的基础上发展成熟的。为了实现信息检索,用户查询和文档集都需要转换成某种内部表示形式。检索系统根据查询表示,对文档集的所有文档进行相似性匹配,获取与用户查询相关的文档。检索系统采用的查询和文档集内部表示、相似匹配的方式决定所采用的检索策略和模式,从而产生出各种不同的信息检索模型。
文本信息检索是将用户提交的查询请求与文本文档集合中的信息进行相似度比较,检索系统根据相似匹配度量模式,将检索出的一组相似度高的信息反馈给用户。在文本信息检索中,常常用文档中含有的词汇集合来近似表示文档的内容。但并不是全部词汇都可以用来描述文档。当用一组词汇近似描述文档时,提取能够描述文档内容的特征词就显得极为重要。我们称这种特征词为索引项(indexing term),从文档中提取索引项的处理称为索引(indexing)。索引项的加权是对各个索引项赋予使查准率(precision)和查全率(recall)提高的权重。查准率和查全率则是衡量信息检索效率的两个重要指标。文本信息检索技术已被后来发展的多媒体信息检索技术继承和改进。
多媒体信息检索是指根据用户查询请求,在文本、图形、图像、视频和音频等为表现形式的各种媒体数据库中,按相似匹配度量模式与用户查询进行比较,将相似度高的一组多媒体信息反馈给用户。由于早期计算机处理能力的限制,无法实现快速处理图像、视频和音频等信息,信息检索的主要对象以纯文本文档为主,传统的信息检索也就是指针对无结构的文本的检索。为了检索图像、视频和音频等媒体信息,需要对这些媒体进行文本(关键字)标注,采用检索纯文本的检索技术实现对多媒体信息的检索。随着通信网络技术、多媒体技术的迅速发展,多媒体信息已经广泛应用于Internet以及各个领域的信息系统中,采用人工标注检索多媒体信息的方法难以适应发展需要。这不仅由于大量的多媒体标注费时、费力,人工难以胜任,而且图像、视频、音频数据本身包含大量的难以用文本表示的信息线索,由此基于内容的检索(consent-based retrieval CBR)技术应运而生。基于内容的检索是指计算机自动对图像、视频、音频等媒体内容进行分析,提取媒体和媒体对象的内容语义特征,根据这些特征和上下文联系进行检索。为了在大量的应用中都能使用多媒体内容,实现多媒体内容检索,很重要的一点是需要制定对多媒体内容的描述标准。MPEG-7标准为实现基于内容的检索提供了共同的描述基础,使得多媒体数据的创建、交换、重用和检索更加有效。
与通常的系统性能评价不同,检索系统的性能评价主要考察系统的检索结果和用户信息请求的匹配程度,是否完备、排序等情况。由于信息检索的需求是不断变化,无法穷尽的,因此,对检索系统的有限次的检索结果评价只能反映系统暂时的性能,只能得到近似指标。目前常用的评价方案是在公认的测试文档集上,选择有代表性的若干检索请求,在一定的相关性判定准则基础上,通过比较各系统返回结果,得到系统检索性能的评价结论。评价结论常常用一些可度量的评价指标来表示,评价中最常用的指标就是查准率和查全率。目前,一些国际、国内的信息检索领域会议,提供检索系统的性能评测比赛以促进检索技术的进步和实用化。最著名的信息检索评测国际会议是文本检索会议(text retrieval conference,TREC),每年举行一次。TREC把信息检索划分成不同的技术领域,这也反映了目前信息检索技术的发展方向。
相关反馈是一种提高信息检索系统服务质量的技术手段。在信息检索过程中,用户通过对系统返回的结果进行相关程度的评价,以便能获得更为满意的查询结果。一般来说,检索系统会在“相关”和“不相关”之间,设定多个等级,让用户在众多的返回结果中,根据具体情况对某个检索结果设定反馈评价等级,有些检索系统提供的评价方式是简短的描述。系统会在下一次检索处理时,综合考虑用户的反馈信息,提高检索结果的准确度。支持相关反馈的检索系统,一次检索处理过程,用户往往需要和检索系统进行多次反馈交互才能获得比较满意的检索结果。相关反馈技术的主要应用领域有: Web信息检索、图像信息检索、音视频信息检索等。
Web信息必须以文档的形式或数据库的形式有序地组织起来,才便于用户搜索和查询。按信息组织形式不同,网络信息的检索方式主要有下面三种基本形式: 基于超链的信息浏览、基于目录索引的信息查询、基于搜索引擎的信息检索。随着计算机技术和网络技术的进步,20世纪80~90年代Internet得到蓬勃发展,成为全球最大的信息资源库。Internet的迅速发展和普及导致网上信息成指数地增长,也极大地促进了信息检索技术的发展和应用,信息检索的对象不仅仅是可以集中管理的相对稳定的文档库,而是开放的、动态的、分布的、管理松散的网络多媒体信息内容。Web信息具有大规模、分布性、无结构性、动态性和非规范性的特点。这些特点对检索Web信息带来了新的挑战。
搜索引擎是帮助用户检索网上信息的检索系统,用户向系统输入与所需信息有关的关键词(或是关键词构成的查询式),系统输出显示含有关键词的网页一览表。通常,检索结果中包含网页的URL和标题、关键词所在位置的前后若干行,用户从结果中再选取适当的网页。自1994年以来,已经有众多的搜索引擎在Internet上运行,搜索引擎逐渐成为Web信息检索利用的主要方式之一。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭