18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 搜索引擎(数据库)

搜索引擎(数据库)

时间:2022-11-24 18:30:01 | 来源:信息时代

时间:2022-11-24 18:30:01 来源:信息时代

    搜索引擎 : 帮助用户检索网上信息的检索系统。用户向系统输入与所需信息有关的关键词(或是关键词构成的查询式),系统输出显示含有关键词的网页一览表。通常,检索结果中包含网页的URL和标题、关键词所在位置的前后若干行,用户从结果中再选取适当的网页。自1994年以来,已经有众多的搜索引擎在Internet上运行,搜索引擎逐渐成为Web信息检索利用的主要方式之一。
搜索引擎基本设计思想是,由一个Robot(或crawler,spider)程序以某种策略自动地遍历Web,搜集和发现信息。将搜集到的信息下载到本地文档库,由索引器为搜集到的信息建立索引。对于用户提出的查询要求,由检索器对索引库进行搜索,找出匹配的文档并将查询结果返回给用户。在查询时,用户不需要知道搜索引擎中索引的具体组织形式。这类搜索引擎一般具有庞大的全文索引数据库,能很好地实现信息的全面获取和即时更新,信息量大、范围广,且不需人工干预。缺点是返回信息过多,有许多无关信息,需要用户从结果中进行筛选。
从搜索结果来源的角度,搜索引擎又可细分为两种,一种是拥有自己的搜索程序,既Robot程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如Google(http://www.google.com/)和百度(http://www.baidu.com/); 另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎(http://www.lycos.com/)等。
还有一种目录索引的网上信息检索方式。目录索引中最具代表性的就是雅虎(http://www.yahoo.com/)。与全文搜索引擎的工作方式不同。首先目录索引并不使用自动搜集软件Robot下载Web文档,而是由人工方式或半自动方式搜集,或者由Web站点的作者主动提交信息,建立数据库。其次目录一般也不对文档全文自动建立索引,而是由人工对某个站点进行访问后,对该站点进行评价和简要描述,并根据站点内容将其归为一个预先分好的类别。经过处理的Web信息资源按照主题分类,一般一级的种类有12~26个类别,各级子类逐层向下深入,叶结点含有指向Web资源的信息。尽管这种分类可以看作为是一棵树,但各子类之间也存在交叉引用关系,所以这是一个有向非循环图。目录的覆盖率非常低,用户得到的结果通常更相关。
目录信息大多面向网站,提供目录浏览服务和直接查询服务。其特点是信息准确、导航质量高;缺点是需要人工介入、维护量大、信息量少、信息更新不及时。需要说明的是,目录提供的是对分类以及Web信息描述的索引,这与搜索引擎提供对文档内容的全文索引是不同的。
随着网上信息越来越多,单纯靠人工整理网站目录取得较高精度查询结果的优势逐渐退化——对海量的信息进行高质量的人工分类已经不太现实。目前有两个发展方向。一是利用文本自动分类技术,在搜索引擎上提供对每篇网页的自动分类; 另一个发展方向是将自动网页抓取和一定的人工分类目录相结合,希望形成一个既有高信息覆盖率,也有高查询准确性的服务。
搜索引擎和目录索引系统这两种Web信息检索系统各有所长。通常,由于搜索引擎具有庞大的全文索引数据库,因此适用于检索难以查找的信息或者一些比较模糊的主题。而目录索引有助于逐步缩小主题或者查找某个主题的常见的、质量较高的信息。由于这两种系统彼此互补,因此,便出现将两者特点结合起来的混合系统。现有的一些著名的搜索引擎和目录索引系统也呈现出逐渐融合的趋势。Google借用Open Directory目录提供分类查询,Yahoo!也已正式推出自己的全文搜索引擎。但它最显著的特点在于浏览,以及连接着数据库中每一记录的超文本分类体系。
各个搜索引擎都有各自的特点和优势,为了对同一查询请求在不同的搜索引擎上搜索得到更有效的检索结果,又提出了元搜索引擎的概念。元搜索引擎的设计思想是,通过一个统一的用户查询接口,向各个搜索引擎提交相同的查询,并组合这些资源的查询结果返回给用户,以帮助用户在多个搜索引擎中选择合适的搜索引擎来实现检索。元搜索引擎是对分布于网络的多种检索工具的全局控制机制。元搜索引擎与搜索引擎的主要区别在于: 搜索引擎拥有独立的网络资源搜集器和索引数据库,元搜索引擎一般没有自己独立的索引数据库,也不需要搜集网页。
搜索引擎、元搜索引擎等Web信息检索系统通常作为大型的检索服务程序运行,同时响应多个用户的请求,但是这些系统不能根据用户的兴趣需求来定制检索结果。不同的领域背景、知识结构的用户对文档要求是不同的,其对文档的相关性判断也是不同的。即使是同一个用户,在不同时期所要求的结果也各有不同。
目前,主要的搜索引擎大都是用户驱动模式的,即由用户提出查询请求,系统做出响应。这样缺乏对Web信息进行监控,并在出现用户感兴趣的信息时主动通知用户的能力。
信息检索代理提供了一种完全不同的Web信息检索模式。信息检索代理是一些智能化程序,通过用户日常的检索、浏览等行为来学习用户的兴趣,推理用户的需求,对信息进行过滤,为用户提供预定(定制)的信息。例如,Carnegie Mellon大学开发的WebWatcher、Washington大学开发的ShopBot、Stanford大学开发的Fab等。在这些系统中,信息检索工作的开展不需要用户的参与,而由检索代理利用自身的机制、知识等进行任务规划、问题求解,从而实现主动的、个性化的信息检索。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭