时间:2022-11-28 06:30:01 | 来源:信息时代
时间:2022-11-28 06:30:01 来源:信息时代
网络信息检索 : 根据相似匹配度量模式,在一个巨大的、动态的、无结构的、分布的网络环境中,将用户查询请求与网络中的文档进行比较,把查找到的相似度高的一组信息反馈给用户的一种信息检索,也称Web信息检索。
Web是Internet上信息组织的一种重要形式。Web信息资源是指在超文本(hypertext)传输协议HTTP的基础上,采用超文本、超媒体(hypermedia)技术,将文本、图像、图形、声音以及视频集成在一个页面上,并以直观的图形用户界面提供信息的资源形式。Web信息具有大规模、分布性、无结构性、动态性和非规范性的特点。这些特点对检索Web信息带来了新的挑战。例如,具有挑战性的问题之一就是,在构建数字图书馆时,用户如何通过网络快速而有效地检索出符合用户需求的多媒体文档,并且其信息存储和用户访问不受时间和地域限制。
Web信息必须以文档的形式或数据库的形式有序地组织起来,才便于用户搜索和查询。按信息组织形式不同,Internet上Web信息的检索方式主要有下面三种基本形式: 基于超链的信息浏览、基于目录索引的信息查询、基于搜索引擎的信息检索。
基于超链的信息浏览是指通过超文本/超媒体链来浏览Internet,检索感兴趣的信息。联机数据库检索中心、期刊报纸杂志等电子出版物、图书馆、高校、企业、政府、网络数据库、网上出版物等网络机构都有唯一明确的网址。利用浏览器可以方便、快捷地获取感兴趣的信息。另外,同一主题或相关的信息因超级链接构成了庞大的无形的跳跃式的信息网,用户可以从一个超文本/超媒体文档入手,沿着嵌在其中的、自己感兴趣的超链去搜索信息。这种信息获取方式在很大程度上取决于超文本文档所提供的超链,搜索的结果带有偶然性和片面性。在搜索的过程中也经常遇到线索中断和偏离用户感兴趣的主题的情况,降低搜索的效率和效果。另外,这是一种通过URL获取Web信息的方式,前提是首先必须知道存放Web信息资源的服务器地址,即IP地址或域名地址。若不知所要查找的资源地址也难以按链搜索信息。
基于目录索引的信息查询是指为了使用户能够全面地掌握Internet上信息资源的分布,根据信息的主题将网上的资源进行分类,以目录的形式组织和表现。经过目录处理的信息资源按照类别组织成树状,从根结点逐层向下从一般类别到特殊的分类和各级子类,用户根据目录一层一层地查找到所需资源的网址,进而到相应的网址去查找信息。
搜索引擎作为Web资源的主要检索工具越来越受到人们的广泛关注。利用搜索引擎检索信息时,用户可以通过浏览器输入查询请求,搜索引擎在事先建立的索引库中检索,然后向用户提供感兴趣的信息所在的网址。自 1994年以来,已经有众多的Web搜索引擎在Internet上运行,Web搜索引擎逐渐成为Web信息检索利用的主要方式之一。
随着计算机技术和网络技术的进步,在20世纪80~90年代,Internet得到蓬勃发展,成为全球最大的信息资源库。Internet的迅速发展和普及导致网上信息成指数地增长,也极大地促进了信息检索技术的发展和应用,信息检索的对象不仅仅是可以集中管理的相对稳定的文档库,而是开放的、动态的、分布的、管理松散的网络多媒体信息内容。
Web信息检索的主要目的就是为了使用户快速高效地从Internet上搜索到自己感兴趣的信息。为此,如何收集分散在Internet上各个站点的信息;如何分析收集的信息进行结构化; 如何建立信息检索接口使用户能得到这些结构化的信息等任务的完成则是Web信息检索面临的主要努力目标。
1990年左右,Internet资源的迅猛增长使主管Internet技术问题工程工作小组(internet engineering task force,IETF)与另外两个网络机构,即欧洲科研网络协会(association of european research networks)和网络信息联盟(coalition for networked information)联合组建了“网络信息检索工作小组”(network information retrieval working group)。这个小组的主要任务是: 收集和发布有关网络信息检索工具及其研究团体的信息;鼓励合作开发网络信息检索工具;协调网络信息检索工具开发单位、有关联网机构和网络信息检索工具的生产销售厂商的行动。该小组每季度举行一次会议,任何机构都可申请加入。