搜索引擎工作原理

时间：2022-02-17 11:06:01 | 来源：信息时代

时间：2022-02-17 11:06:01 来源：信息时代

第一步：爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为'蜘蛛'也被称为'机器人'。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。

第二步：抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

第三步：预处理

搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。

1.提取文字

2.中文分词

3.去停止词

4.消除噪音（搜索引擎需要识别并消除这些噪声，比如版权声明文字、导航条、广告等……）

5.正向索引

6.倒排索引

7.链接关系计算

8.特殊文件处理

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash这类非文字内容，也不能执行脚本和程序。

第四步：排名

用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。但是，由于搜索引擎的数据量庞大，虽然能达到每日都有小的更新，但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

关键词：原理,工作,索引

网站
营销
设计
运营
优化
效率
专注
电商
方案
推广

解决方案&服务

客户&案例

营销资讯

关于我们

解决方案&服务

客户&案例

营销资讯

关于我们

微信公众号

为了最佳展示效果，本站不支持IE9及以下版本的浏览器，建议您使用谷歌Chrome浏览器。点击下载Chrome浏览器

关闭

快捷入口

搜索引擎工作原理

开放系统互连安全体系结构(相关知识)

华为手机外界评价

LBS基本概念

No5化妆品网

Google TensorFlow简介

OTDR工作原理

文本数据库知识发现(数据库)

子网分类介绍

CodetoFlowchart

国际互联网安全日主题解读

快捷入口

搜索引擎工作原理

推荐文章

工作中可以使用这6个国家网站查询企业等信息，免费且权威

企业网站搜索引擎认证的几种方式

找工作必备，云南省企业100强名单

企业网站的日常维护工作包含哪些

工作方案规定性

工作方案基本介绍

搜索引擎技巧语法查询

搜索引擎技巧多个关键字

搜索引擎技巧类别搜索

搜索引擎技巧基本介绍

开放系统互连安全体系结构(相关知识)

华为手机外界评价

LBS基本概念

No5化妆品网

Google TensorFlow简介

OTDR工作原理

文本数据库知识发现(数据库)

子网分类介绍

CodetoFlowchart

国际互联网安全日主题解读