18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 搜索引擎工作原理简介(1)

搜索引擎工作原理简介(1)

时间:2023-03-17 02:20:01 | 来源:电子商务

时间:2023-03-17 02:20:01 来源:电子商务

搜索引擎工作过程非常复杂,接下来的几节我们简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对SEO人员已经足够用了。

搜索引擎的工作过程大体上可以分成三个阶段。

(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排:名程序调用。

(3)排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

1.蜘蛛

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider), 也称为机器人(bot)。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。

蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

和浏览器一样,搜索引擎蜘蛛也有标明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。下面列出常见的搜索引擎蜘蛛名称:

Baidupitrthtp://http://ww.baidu.com/search/spide.htm)百度蜘蛛

Mozilla/5.0 (compatible; Yahoo! Slurp China; htp://http://misc.yahoo.com.cn/help.htm1) 雅虎中国蜘蛛

Mila/5.0 (compatible; Yahoo! Slurp/3.0; htp:/:/http://elp.yahoo.com/help/us/ysearc/slurp)英文雅虎蜘蛛

Moilla/5.0 (compatible; Googlebot2.1; ttp://http://www.oogle.com/bot.htmI) Google蜘蛛

msnbot/1.1 (thtp://http://search.msn.com/msnbot.htm) 微软Bing 蜘蛛

Sogou+webtrobot+(ttp://http://www.sogou.com/docs/help/webmasters. htm#07)搜狗蜘蛛

Sososricr+htp://help.soso.comn/webspider.htm)搜搜蜘蛛

Mozila/5.0 (compatible; YodaoBot/1.0; htp://www.yoo.om/help/webmastr/spider; )有道蜘蛛

(未完待续)


学习建站了解建站能做什么可以看看上面回答哦!!

关键词:原理,工作,索引

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭