搜索引擎工作原理和步骤
时间:2024-01-20 05:40:01 | 来源:网络推广
时间:2024-01-20 05:40:01 来源:网络推广
搜索引擎工作原理和步骤要了解搜索引擎优化,首先要了解搜索引擎的基本工作原理。
从这个原理出发,才可以摸索出搜索引擎优化更深层次的内涵。
提示:“搜索引擎”分类很繁杂,可以包含全文索引、目录索引、元搜索、垂直搜索等#本书中提到的“搜索引擎”,特指全文索引的搜索引擎,也就是日常在网络中使用的谷歌、百度等主流搜索引擎平台。
1#爬行和抓取搜索引擎开始工作的时候,首先会派出一个能够在网上发现新网页并抓取文件的程序(这个程序通常被称为蜘蛛Spider、爬虫Crawler或机器人Robot) , 这个程序从搜索引擎自身数据库中已知的网页出发,像正常用户的浏览器一样访问已存在的网页上的链接,并根据链接抓取文件。
提示:“蜘蛛”(Spider) 、“爬虫”(Crawler) 、“机器人”(Robot) 这三种不同叫法的实质意义其实类似,在本书中不做严格区分。
一般情况下,可以理解为三者可以相互替换,“蜘蛛”在访问已知的网页后,会跟踪网页上的链接,并访问更多的网页,这个过程叫做爬行。
当通过链接发现有新的网址时,“蜘蛛”就把新的网址记入搜索引擎自己的数据库,等待抓取。
为搜索引擎优化的最基本方法之一。
跟踪网页链接是搜索引擎“蜘蛛”发现新网址的最基本方法,所以网页链接的优化也就成搜索引擎“蜘蛛”抓取的页面文件,往往与用户浏览器中看到的页面大不相同,“蜘蛛”会将这些抓取的网页文件存入数据库,以待后用。
2#索引搜索引擎程序把“蜘蛛”抓取的网页文件分解、分析,并以某种特定的形式存入自己的庞大数据库,这个过程就是索引。
在索引数据库中,网页的文字内容、关键词出现的位置、字体、颜色等信息都有相应的记录。
提示:搜索引擎索引数据库存储巨量数据,主流搜索引擎通常都有几亿、几十亿条网页。
3#搜索词处理用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序立即对输入的搜索词进行处理,如图1-3所示。
这个处理过程很烦琐,而且中间的过程对用户而言是不可见的,也是搜索引擎的核心机密之一。
常见的搜索词处理包括中文的分词、关键词词序的辨别、去除停止词、判断是否需要启动整合搜索、判断是否有拼写错误或错别字等,如图1-4所示。
在网站的结构优化当中,片面的理解物理结构和逻辑结构的优化都是不行的,应当综合考量。
比如,不管内容页所处的目录层级有多深,只要该页有一个或者大量来自其他网站的外部链接和内部网站的大量内部链接,它同样会被搜索引擎快速发现,并给予高的权重。