18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 了解搜索引擎

了解搜索引擎

时间:2023-03-27 10:56:01 | 来源:电子商务

时间:2023-03-27 10:56:01 来源:电子商务

减少搜索引擎工作量
降低工作难度
轻松快速抓取页面
准确提取页面内容
意味权威度高、内容可靠
参与相关性计算的基本条件

2.1搜索引擎与目录

  1. 自动化
蜘蛛爬行
页面收录
排序
  1. 收录数量多
  2. 质量参差不齐


  1. 人工编辑分类
  2. 规模有限
  3. 更新慢

2.2面对的挑战

  1. 页面抓取需要快而全面
  2. 海量数据存储
  3. 索引处理快速有效,具可扩展性
  4. 查询处理快速准确
  5. 判断用户意图及人工智能

2.3 搜索结果显示格式

2.3.1 搜索结果页面

搜索广告在网络营销行业经常称为PPC,由广告商针对关键词进行竞价,
SEO最关注的是占据页面主体的自然搜索结果。
统计数据显示,自然搜索结果总点击访问数要远远大于广告点击数。

2.3.2 经典搜索结果列表

2.3.3 整合搜索结果

2007年出现的整合搜索将垂直搜索内容直接混合显示在网页搜索结果页面上,用户不必再点击垂直导航链接。

整合内容的优化也是SEO可以考虑的方向。

2.3.4 全站链接

某些权重比较高的网站
最权威的内容来源
显示三行、两列共6个内页链接
对某些权重比较高的网站,当用户搜索一个查询词,这个网站的结果是最权威的内容来源时,Google除了正常结果列表外,还可能显示三行、两列共6个内页链接,称为全站链接(Sitelinks)

2.3.5 框计算和One-box

> 由Google开始,称为One-box > 百度倾向于框计算
诸如天气、体育比赛成绩、计算器、计量单位换算、距离计算、航班火车信息等

2.3.6 富摘要

2.3.7 图文展现

基于语义识别技术 将网上不同来源的知识点整合起来 以更系统的方式展现给用户 必要的地方链接相应的页面或搜索结果 搜索人名、地名、实体、事件、专业词汇等知识类查询词时经常出现这种结果

2.3.9 面包屑导航

2.4 搜索引擎工作原理简介

(1)爬行和抓取:

搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。
(2)预处理:

索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。
(3)排名:

用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
2.4.1 爬行和抓取

1.蜘蛛

蜘蛛(spider)或机器人(bot):搜索引擎用来爬行和访问页面的程序

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。
蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。
搜索引擎使用多个蜘蛛并发分布爬行
(1) 百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm) (2) 360蜘蛛:Mozilla/5.0(Windows; U; Windows NT 5.1; zh-CN;)Firefox/1.5.0.11;360Spider (3) 英文雅虎:Mozilla/5.0(compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp) (4) Google蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html) (5) Google移动蜘蛛:Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html) (6) 微软Bing蜘蛛:Mozilla/5.0 (compatible; bingbot/2.0;+http://www.bing.com/bingbot.htm) (7) 搜狗蜘蛛:Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) (8) 有道蜘蛛:Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)

2.跟踪链接

整个互联网是由相互链接的网站及页面组成
搜索引擎蜘蛛跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样
(1) 深度优先:蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行

(2) 广度优先:蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

3.吸引蜘蛛

1.网站和页面权重。
2.页面更新度。
3.导入链接。
4.与首页点击距离。 ##网站上权重最高的是首页
5.URL结构。 ##短的、层次浅的URL被直观认为在网站上的权重相对较高

4.地址库

蜘蛛在页面上发现链接后并不是马上就去访问,而是将URL存入地址库,然后统一安排抓取。
(1)人工录入的种子网站 (2)蜘蛛从HTML中解析出新的链接URL,与地址库中的数据进行对比,地址库中没有的网址,存入待访问地址库。 (3)通过搜索引擎网页提交表格提交进来的网址。 (4)通过XML网站地图、站长平台提交的网址。
搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的

5.文件存储

搜索引擎蜘蛛抓取的数据存入原始页面数据库。
其中的页面数据与用户浏览器得到的HTML是完全一样的。
每个URL都有一个独特的文件编号。

6.爬行时的复制内容检测

遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。

2.4.2 预处理

“预处理”简称为“索引”,索引是预处理最主要的内容。

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理,必须经过预处理,为最后的查询排名做好准备。

1.提取文字

<div id="post-1100" class="post-1100 post hentry category-seo"> <div class="posttitle"> <h2><a href="http://www.gzhytextile.com/h-nd-9.html#_np=105_337" rel="bookmark" title="什么是经编网眼布">什么是经编网眼布</a></h2>除去HTML代码后,剩下的用于排名的文字只是这一行:

什么是经编网眼布

2.中文分词

(1). 基于词典匹配的方法是:将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,切分出一个单词。

按照扫描方向,基于词典的匹配法可以分为:正向匹配和逆向匹配
按照匹配长度优先级的不同,又可以分为:最大匹配和最小匹配
将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。
词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况

(2). 基于统计的分词方法:分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。

基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义

基于词典匹配和基于统计的分词方法各有优劣,分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。

唯一能做的是在页面上用某种形式提示搜索引擎,
比如在页面标题、h1标签及黑体中出现关键词

3.去停止词

停止词:页面内容中都会有一些出现频率很高,却对内容没有任何影响的词

中文常见的:

如“的”、“地”、“得”之类的助词,
“啊”、“哈”、“呀”之类的感叹词,
“从而”、“以”、“却”之类的副词或介词
英文中的常见停止词有the, a, an, to, of等

4.消除噪声

对页面主题也没有什么贡献,对页面主题只能起到分散作用,这些区块都属于噪声

比如版权声明文字、导航条、广告等
搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。

5.去重

从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),
然后计算这些关键词的数字指纹。
关键词选取是在分词、去停止词、消噪之后。

6.正向索引

正向索引也可以简称为索引。

搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如图所示:

每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实这样的数据结构就称为正向索引

7.倒排索引

正向索引还不能直接用于排名。

搜索引擎会将正向索引数据库重新构造为倒排索引把文件对应到关键词的映射转换为关键词到文件的映射,如表图所示:

在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。

8.链接关系计算

链接关系计算也是预处理中很重要的一部分。

所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。

Google PR值就是这种链接关系的最主要体现之一。

9.特殊文件处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。

目前的搜索引擎还不能处理图片和视频,对Flash这类非文字内容,以及脚本和程序只能进行有限的处理。

10.质量判断

在预处理阶段,搜索引擎会对页面内容质量、链接质量等作出判断。

质量判断包含很多因素,并不局限于针对关键词的提取和计算,或者针对链接进行数值计算。

比如对页面内容的判断,很可能包括了用户体验、页面排版、广告布局、语法、页面打开速度等,
也可能会涉及模式识别、机器学习、人工智能等方法。

2.4.3 排名

用户在搜索框填入查询词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的。

1.搜索词处理

(1)中文分词。——将查询字符串转换为以词为基础的关键词组合

(2)去停止词。——最大限度地提高排名相关性及效率。

(3)指令处理。——默认处理方式是在关键词之间使用“与”逻辑。

(4)拼写错误矫正。

(5)整合搜索触发。

(6)搜索框提示。——根据热门搜索数据给出多组可能的查询词

2.文件匹配

以词为基础的关键词集合,文件匹配阶段就是找出含有所有搜索关键词的所有文件。

3.初始子集的选择

用于最后相关性计算的初始页面子集的选择,依靠其他特征而不是相关性,其中最主要的就是页面权重。

4.相关性计算

(1)关键词常用程度。

越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。
搜索引擎对搜索词串中的关键词并不是一视同仁地处理,而是根据常用程度进行加权。
不常用的词加权系数高,常用词加权系数低,排名算法对不常用的词给予更多关注。
(2)词频及密度。

在没有关键词堆积的情况下,搜索词在页面中出现的次数越多,密度越高,说明页面与搜索词越相关。
(3)关键词位置及形式。

关键词出现在比较重要的位置,说明页面与关键词越相关,如标题标签、黑体、H1等
(4)关键词距离。

切分后的关键词完整匹配地出现,说明与搜索词最相关。
(5)链接分析及页面权重。

页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。

5.排名过滤及调整

一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。

6.排名显示

调用原始页面的标题标签、说明标签、快照日期等数据显示 有时候动态生成页面摘要

7.搜索缓存

把最常见的搜索词及结果存入缓存,用户搜索时直接从缓存中调用

8.查询及点击日志

搜索用户的IP地址、搜索的查询词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志。
日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等有重要意义

2.5 链接原理

2.5.1 李彦宏超链分析专利

李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请。

提出了与传统信息检索系统不同的基于链接的排名方法。
如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。
词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。

2.5.2 HITS算法

HITS是英文Hyperlink-Induced Topic Search的缩写,意译为“超链诱导主题搜索”。

HITS算法由Jon Kleinberg于1997年提出,并申请了专利。

一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两个值是互相依存、互相影响的。

枢纽值,指的是页面上所有导出链接指向页面的权威值之和。
权威值指的是所有导入链接所在页面的枢纽值之和。

2.5.3 TrustRank算法

TrustRank是基于链接关系的排名算法。TrustRank可以翻译为“信任指数”。

TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。

Google商标中的TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。
很多垃圾网站会链接到高权威、高信任指数的网站,试图提高自己的信任指数。
  1. 计算TrustRank值首先要选择一批种子网站,然后人工查看网站,设定一个初始TrustRank值。
挑选种子网站有两种方式:

一种是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减。
另一种挑选种子网站的方法是选PR值高的网站,因为PR值越高,在搜索结果页面出现的概率就越大。
  1. 根据测算,挑选出两百个左右网站作为种子,就可以比较精确地计算出所有网站的TrustRank值。
计算TrustRank随链接关系减少的公式有两种方式:

A.一种是随链接次数衰减,也就是说如果第一层页面TrustRank指数是100,第二层页面衰减为90,第三层衰减为80。
B.第二种计算方法是按导出链接数目分配TrustRank值,也就是说,如果一个页面的TrustRank值是100,页面上有5个导出链接,每个链接将传递20%的TrustRank值。
衰减和分配这两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank值逐步降低。

  1. 得出网站和页面的TrustRank值后,可以通过两种方式影响排名:
一种是把传统排名算法挑选出的相关页面,根据TrustRank值比较,重新做排名调整。
另一种是设定一个最低的TrustRank值门槛,只有超过这个门槛的页面,才被认为有足够的质量进入排名,低于门槛的页面将被认为是垃圾页面,从搜索结果中过滤出去。
现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。

在搜索引擎算法中,TrustRank值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。

2.5.4 Google PR

PR是PageRank的缩写。

Google PR理论是所有基于链接的搜索引擎理论中最有名的。

PR是Google创始人之一拉里佩奇发明的,用于表示页面重要性的概念。

即,反向链接越多的页面就是越重要的页面,因此PR值也就越高。

1.PR的概念和计算

互联网由结点及链接组成的有向图,页面就是一个个结点,页面之间的有向链接传递着页面的重要性。

一个链接传递的PR值决定于链接所在页面的PR值,发出链接的页面本身PR值越高,所能传递出去的PR也越高。

传递的PR值也取决于页面上的导出链接数目。

从概念及计算公式都可以看到,PR值必须经过多次迭代计算才能得到。

2.PR的两个比喻模型

一个比喻是投票。

链接就像民主投票一样,A页面链接到B页面,就意味着A页面对B页面投了一票,使得B页面的重要性提高。
同时,A页面本身的PR值决定了A所能投出去的投票力,PR值越高的页面,投出的票也更重要。
传统基于关键词匹配的算法是看页面自己说页面内容是什么,基于链接的PR则是看别人怎么评价一个页面。
第二个是随机冲浪比喻。

所谓PR值,就是一个页面在这种随机冲浪访问中被访问到的概率。
一个页面导入链接越多,被访问到的概率就越高,因此PR值也越高。

3.工具条PR

工具条PR值并不是真实PR值的精确反映。

A.真实PR值是一个准确的、大于0.15、没有上限的数字,工具条上显示的PR值已经规范化为0~10这11个数字,是一个整数。
B.真正的PR值是不间断计算更新中的,工具条PR值只是某一个时间点上真实PR值的简化快照输出。
c.工具条PR与反向链接数目呈对数关系,而不是线性关系。

4.关于PR的几个误解

不过约定俗成,再加上巧妙的一语双关,大家都把PR称为页面级别。
有反向链接就有PR,没有反向链接就没有PR。

5.PR的意义

PR是Google排名算法中的重要因素之一。除了直接影响排名,PR的重要性还体现在下面几点:

(1)网站收录深度和总页面数。

(2)访问及更新频率。

(3)重复内容判定。

(4)排名初始子集的选择。

2.5.5 Hilltop算法

Hilltop算法是由Krishna Baharat在2000年左右所研究的,于2001年申请了专利,并且把专利授权给Google使用.

Hilltop算法同样是计算链接关系,不过它更关注来自主题相关页面的链接权重。

在Hilltop算法中把主题相关页面称为专家文件。

按Hilltop算法的最初构想,一个页面至少要有两个来自专家文件的链接,才能返回一定的Hilltop值,不然返回的Hilltop值将为零。
根据专家文件链接计算的分值被称为LocalRank。

排名程序根据LocalRank值,对原本传统排名算法计算的排名做重新调整,给出最后排名。这是搜索引擎排名阶段最后的过滤和调整步骤。
Hilltop算法提示SEO,建设外部链接时更应该关注主题相关,并且本身排名就不错的网站和页面。

2.6 用户怎样浏览和点击搜索结果

2.6.1 英文搜索结果页面

页面浏览最主要的研究方法是视线跟踪(eye-tracking),使用特殊的设备跟踪用户目光在结果页面上的浏览及点击数据。

2.6.2 中文搜索结果页面

中文搜索结果点击率没有英文那样急剧下降的趋势。

预估中文关键词流量时,不能照搬英文点击数据,要参考自己网站的点击数据。

2.6.3 整合搜索及个人化搜索

用户视线及点击的最新趋势几个提示:

A. 自然排名位置依然至关重要。用户即使不知道自然排名会在搜索结果的什么地方出现,还会主动去寻找。
B.虽然其他干扰因素吸引了大量注意力,但还没有吸引同等比例的点击,点击还是集中在自然排名上。
C.尽一切力量、方法丰富自己页面的显示格式,加图片、加视频、加入新闻源、加schema标记形成富摘要和知心搜索/知识图谱、加地图和本地信息等。
D.现在不仅仅排名位置重要,展现方式也越来越重要。
2.7 高级搜索指令

2.7.1 双引号

把搜索词放在双引号中,代表完全匹配搜索。

搜索结果返回的页面包含双引号中出现的所有词,连顺序也必须完全匹配。
百度和Google都支持这个指令。
使用双引号搜索可以更准确地找到特定关键词的竞争对手。

2.7.2 减号

减号(-)代表搜索不包含减号后面的词的页面。

使用这个指令时,减号前面必须是空格,减号后面没有空格,紧跟着需要排除的词。
百度和Google都支持这个指令。
使用减号也可以更准确地找到需要的文件,尤其是某些词有多种意义时。

2.7.3 星号

星号(*)是常用的通配符,也可以用在搜索中。

百度不支持*号搜索指令。

2.7.4 inurl:

inurl:指令用于搜索查询词出现在URL中的页面。

inurl:指令支持中文和英文。
由于关键词出现在URL中对排名有一定影响,使用inurl:搜索可以更准确地找到竞争对手。

2.7.5 inanchor:

inanchor:指令返回的结果是导入链接锚文字中包含搜索词的页面。

百度不支持inanchor:指令。

2.7.6 intitle:

intitle:指令返回的是页面Title中包含关键词的页面。

百度和Google都支持intitle:指令。
Title是目前页面优化的最重要因素。

做SEO的人无论要做哪个词的排名,都会把关键词放进Title中。
因此使用intitle指令找到的文件才是更准确的竞争页面。
如果关键词只出现在页面可见文字中,而没有出现在Title中,大部分情况是并没有针对关键词进行优化,也不是有力的竞争对手。

2.7.7 allintitle:

allintitle:搜索返回的是页面标题中包含多组关键词的文件。

例如,allintitle:SEO搜索引擎优化,
就相当于:intitle:SEO intitle:搜索引擎优化,
返回的是标题中既包含“SEO”,也包含“搜索引擎优化”的页面。

2.7.8 allinurl:

与allintitle:类似。

allinurl:SEO搜索引擎优化,
就相当于:
inurl:SEO inurl:搜索引擎优化

2.7.9 filetype:

filetype用于搜索特定的文件格式。

百度和Google都支持filetype:指令。
百度只支持下面几种文件格式:pdf, doc, xls, ppt, rtf, all。其中的“all”表示搜索百度所有支持的文件类型。

Google则支持所有能索引的文件格式,包括HTML、PHP等。

filetype:指令用来搜索特定的资源,比如PDF电子书、Word文件等非常有用。

2.7.10 site:

site:用来搜索某个域名下的所有文件。

比如搜索site:http://seozac.com
返回的就是http://seozac.com这个域名下的所有页面。
这个指令是查询网站收录页面数的最简单方法。

不过site:指令很不准确,只能作为参考。
百度site:指令还显示了来自百度站长平台的信息和链接。

2.7.11 link:

link:用来搜索某个url的反向链接,既包括内部链接,也包括外部链接。

搜索:link: http://seozac.com,返回的就是http://seozac.com的反向链接。
搜索:link: seozac.com-site:http://seozac.com,返回的则是http://seozac.com的外部链接,已去除http://seozac.com域名本身的页面
Google的link:指令返回的链接只是Google索引库中的一部分,而且是近乎随机的一部分,所以用link:指令查反向链接几乎没有用。

百度则不支持link:指令。

2.7.12 linkdomain:

linkdomain:指令只适用于雅虎,返回的是某个域名的反向链接。

当年雅虎的反向链接数据还比较准确,是SEO人员研究竞争对手外部链接情况的重要工具之一。

随着雅虎放弃自己的搜索技术,这个指令已作废。

2.7.13 related:

related:指令只适用于Google,返回的结果是与某个网站有关联的页面。

这种关联到底指的是什么,Google并没有明确说明,一般认为指的是有共同外部链接的网站。

2.7.14 综合使用高级搜索指令

例1:inurl:gov减肥

返回的就是URL中包含“gov”,页面中有“减肥”这个词的页面。
例2:inurl:.http://edu.cn交换链接

返回的是来自.http://edu.cn,也就是学校域名上的包含“交换链接”这个词的页面
例3:inurl:.http://edu.cn intitle:交换链接

返回的则是来自http://edu.cn域名,标题中包含“交换链接”这四个字的页面
例4:inurl:http://edu.cn/forum/*register

返回的结果是在.http://edu.cn域名上,url中包含“forum”以及“register”这两个单词的页面
例5:减肥inurl:links

返回的是与减肥有关且URL中包含“links”这个单词的页面。
很多站长把交换链接页面命名为links.html等,所以这个指令返回的就是与减肥主题相关的交换链接页面。
例6:allinurl:gov.cn+links

返回的是URL中包含“gov.cn”和“links”的页面,也就是政府域名上的交换链接页面。


关键词:索引

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭