java+jsp+sqlserver 2008+Tomcat实现一个简单的搜索引擎
时间:2023-03-20 08:34:01 | 来源:电子商务
时间:2023-03-20 08:34:01 来源:电子商务
导读:搜索引擎的定义就是指按照既定的策略与方法,采取相关的计算机程序,通过在互联网中进行寻找信息,并显示信息,最后把找到的信息进行整理和筛选,为搜索引擎的使用者提供检索信息的服务,终极目标是为了提供给使用者,他所搜索信息相关的资料的计算机系统。搜索引擎的种类繁多,既可以进行全文的索引,还可以进行目录的索引,不仅有集合式的搜索引擎,还有垂直搜索的引擎以及元搜索引擎。除此之外,还有门户搜索引擎和免费链接列表等等。
如今搜索引擎提供的信息资源导航服务已发展成互联网上非常重要的网络服务之一,搜索引擎网站也被称之为 “网络门户”。
根据搜集资源与提供给用户的方式进行区别,如今的搜索引擎可以划分为两类:
(1)目录式搜索引擎:按照人为地方案或者是半自动的工作模式去搜索信息,然后指定职业的工作人员查看信息,采取人工的方式对信息进行筛选,最终会把检索到的信息分类存放在指定的框架当中。这一类信息大多数是直接与网站进行交互的,只可以提供文档目录的查看以及直接检索的服务。由于这一类型的搜索引擎引入了人的智能的功能,所以提供的信息质量非常高,精确地匹配所检索的信息;但由于需要指定人员进行查看和分类,这无疑会使得信息的更新不够及时,而且信息量如此之大,会使得维护任务异常繁重。雅虎(yahoo!)就是这一类型的典型代表。
(2)机器人搜索引擎:利用蜘蛛 (spider)程序在互联网中进行自主的检索资源,通过索引器搜索的信息绘制索引表,索引器就是依照使用者的输入请求,查看索引库中的内容,最终将匹配到的结果显示出来,供用户查看。这一类型的服务方式是面向web的全文检索。该类搜索引擎相比于目录式的搜索引擎,省去了人工操作的环节,使得更新更加及时,而且由于是计算机自动进行查询,会使得查询得到的信息量大幅提升;但正是由于这样,会使得返回的信息匹配率相比于目录式检索会有所下降,用户所看到的信息过于庞大,还需自身进行筛选。由于其优点突出,目前,比较流行的搜索引擎大多数采取了这一种方式,这其中代表性最强的引擎有: google(谷歌)、Baidu(百度)、360、等等。
现在网络的搜索引擎也已经有不少,国际上比较著名的有Google(谷歌)等等。国内目前也建立了很多的搜索引擎,比如:百度、360、搜狐、新浪等。其中,在信息检索的准确率和全面性这两个指标上,做得较好有Google、百度。 同时搜索引擎的准确度及相关性还是有待科技人员进一步提高和完善的。
以Google为例再具体的阐述一下,它可以在检索信息时做到了快、准、狠。它最厉害的优势在于:1、超大容量的web存储空间。据保守估计,Google目前收录的Web网页总量己经高达80亿。2、响应速度及时。据数据显示,Google(谷歌)通常搜寻所用时间大致上小于0.3 s,这么卓越的性能是基于数百台高性能的硬件服务器以及谷歌公司所使用的的分布式并行查询的系统。3、反馈信息全面。据了解,Google查询反馈的信息不仅仅集中于各个大型热门网站,同时针对的是更多的特定的Web页面(即便是存放这些页面的网站很冷门),但正是由于这样,才会使得谷歌可以获取的信息,能够和使用者查找的请求具有较高的相关度、匹配性、准确度,Google(谷歌)不断发展改善的页面优先度程序和查询到的信息最优化的排序机制,使得谷歌能够在搜索引擎中处于佼佼者的地位。
目录 基本功能
项目结构
项目截图
总结
下载地址
基本功能 经过对搜索引擎的研究同时与Lucene自身的特性相结合,搜索引擎的设计与实现需要实现的功能阐述如下:
(1)支持桌面文件搜索,格式包括txt、doc、xls和ppt;
(2)支持分词查询
(3)支持全文搜索
(4)能够高亮显示搜索关键字
(5)显示查询所用的时间
(6)显示搜索历史、过滤关键字
项目结构 图中标记文件为数据库,使用时请单独使用,项目导入编译器即可。
项目截图
总结 环球信息网(World Wide Web),即3W,一般在计算机与信息行业用Web这个词汇来来表示,万维网是它进入中国时所赋予的称呼,其实,这就是一个资料的汇集与存储的空间。
在这个空间中,以事物为单位,一个事物也可以称为一样“资源”,利用URL来标识,统一资源标识符”(URL。这些资源通过超文本传输协议(Hypertext Transfer Protocol,HTP)传送给终端用户,其中给到用户手上的是一个个链接,然后用户通过逐层点击链接,就可以查看到资源,也可以获得到资源。
万维网也常常被人们误以为是因特网的近义词,在这里必须要表明的概念是:万维网与因特网存在着本质的区别。因特网(Internet)是指,把全世界所有的各类型电脑,利用网络连接,所形成的硬件框架,这是一个实实在在的“网”。万维网,其本质是一种功能,即让使用者光看网络页面,而页面之间又交相辉映,从而让使用者觉得这也是一种“网”,但这种网是虚拟的,是不存在的。
可以说1994年在信息时代是一个重大突破的一年,因为万维网(World Wide Web)出现了。在这一改变之前,人们的信息获取方式还是通过各种传统文化传媒,相对于万维网来说是很传统、笨拙的,它在开放性和广泛的可访问性极大的激励了人们创作的积极性。所以万维网的出现极大的缩短了人们信息获取的时间,同时信息的时效性也得到了保障。万维网一出现就收到了全世界各国人的追捧,人们在它出现的十几年的一个时间段中,就在万维网这一平台上发布了几十亿条的网页信息,他的一个数据量是那么的庞大,粗略计算一下,万维网上的网页信息每天都会不断增长几十万。因为网络化、数字化的信息资源,所以网络信息也是有利有弊:利的一面是提高了我们的信息量;不利的一面是庞大的信息一并向我们开来,犹如破堤的江水,汹涌澎湃,造成了我们无所适从。
关于搜索引擎的由来,北美加拿大(Canada)的麦吉尔大学就必须要介绍一下了,早在上世纪,90年代之初,由于网络资源众多,分散性特别大,人们在找资料的时候特别费力。麦吉尔大学的团队也意识到了这个问题,所以他们就研发出了Archie,这是一个可以自动运行的系统,可以完成在FTP上搜集有用资源的作用。该系统定期会自动搜索FTP系统上保存的文档名以及相关的资源,而且还可以自行分析,如果有客户端发出搜索请求,该系统会根据搜索请求的内容,自动提供保存在主机中文件。在以Web网页为对象的搜索引擎系统的大背景下,搜索引擎被人们当做了在网上查找信息的重要手段,通过搜索引擎系统人们可以在浩瀚的网络海洋中第一时间找到自己真正想要的信息,并且搜索引擎的智能以及现在网页的特性使得人们只要输入相关的词语(即关键词)就可以找到相关的信息。
现如今,人们看到的百度、Google取得的显著成效,可以说是成为了行业的领头羊,所以整个世界也都把视觉一部分放置在了搜索引擎这一领域当中,各种各样的搜索服务犹如雨后春笋一般争相冒出。搜索引擎不仅种类愈来愈多,而且其服务的质量也越来越全面,从最初期的国外的Google引擎、Yahoo引擎,到如今的中国的Baidu引擎、360引擎等等。随着web技术的不断完善,网络信息资源也是翻倍增长的(变化关系是成正比的)。所以为了满足用户的需要,既可以快速的找到到资源,而且还可以提高资源的质量,各类型的引擎中,必须引入检索这一概念。此外,在企业级应用的市场上,由于搜索的资源需求量大,要求的精度更加高,全文检索的功能也就被人们重视起来了,例如在各种文件档案的处理过程中、企业管理的软件中。
在这样的环境下,搜索引擎的技术也在迅猛发展。各种讨论搜索引擎的文章、博客、杂志等席卷网络的相关信息。在这个信息化全面进入人们生活各层各面的时代,搜索引擎这项技术无疑会在最热门的技术中占有一席之地。
下载地址