18143453325 或

在线咨询

所在位置：首页 > 营销资讯 > 电子商务 > 了解搜索引擎

了解搜索引擎

时间：2023-03-27 10:56:01 | 来源：电子商务

时间：2023-03-27 10:56:01 来源：电子商务

优化网站作用：

减少搜索引擎工作量
降低工作难度
轻松快速抓取页面
准确提取页面内容

页面权重

意味权威度高、内容可靠
参与相关性计算的基本条件

2.1搜索引擎与目录

搜索引擎

自动化

蜘蛛爬行
页面收录
排序

收录数量多
质量参差不齐

人工编辑分类
规模有限
更新慢

2.2面对的挑战

页面抓取需要快而全面
海量数据存储
索引处理快速有效，具可扩展性
查询处理快速准确
判断用户意图及人工智能

2.3 搜索结果显示格式

2.3.1 搜索结果页面

页面主体有两部分最重要：一是广告，二是自然搜索结果。

搜索广告在网络营销行业经常称为PPC，由广告商针对关键词进行竞价，
SEO最关注的是占据页面主体的自然搜索结果。
统计数据显示，自然搜索结果总点击访问数要远远大于广告点击数。

2.3.2 经典搜索结果列表

第一行是页面标题，通常取自页面HTML代码中的标题标签（Title Tag）
第二行、第三行是页面说明。
页面说明大部分时候取自页面HTML中的说明标签（Description Tag），
有时从页面可见文字中动态抓取相关内容。
第四行显示多个信息。最左侧是网址，可以看到页面来自哪个域名，以及目录、文件名信息。

2.3.3 整合搜索结果

2007年出现的整合搜索将垂直搜索内容直接混合显示在网页搜索结果页面上，用户不必再点击垂直导航链接。

整合内容的优化也是SEO可以考虑的方向。

2.3.4 全站链接

全站链接（Sitelinks）

某些权重比较高的网站
最权威的内容来源
显示三行、两列共6个内页链接

对某些权重比较高的网站，当用户搜索一个查询词，这个网站的结果是最权威的内容来源时，Google除了正常结果列表外，还可能显示三行、两列共6个内页链接，称为全站链接（Sitelinks）

为权重高的网站提供了多几倍的访问入口，视觉上的醒目也大大提高了点击率。

2.3.5 框计算和One-box

One-box：

> 由Google开始，称为One-box > 百度倾向于框计算

框计算或One-box能回答的问题：通常是可结构化的数据

诸如天气、体育比赛成绩、计算器、计量单位换算、距离计算、航班火车信息等

2.3.6 富摘要

使用schema、RDFa、Microdata、Microformats等数据标注的页面，
搜索引擎会尝试从页面提取结构化数据，以富摘要（Rich Snippet）形式展现在结果列表中，
这种排版格式无疑也会提高关注度和点击率。
在富摘要中显示合适的信息，有助于说服用户点击结果

2.3.7 图文展现

从2013年年底开始，百度越来越多地使用图文展现方式
图片绝大部分是从页面正文中选取的，并且要内容相关、清晰、横宽比例适当。
小部分可能来自于百度站长平台正在内测的Logo提交功能。
图文展现作用：
直观
提高用户体验
容易快速判断页面内容
页面吸引视线、提高点击率

2.3.8 知心搜索和知识图谱
2012年Google推出知识图谱。2013年百度推出知心搜索。
知心搜索和知识图谱

 基于语义识别技术 将网上不同来源的知识点整合起来 以更系统的方式展现给用户 必要的地方链接相应的页面或搜索结果 搜索人名、地名、实体、事件、专业词汇等知识类查询词时经常出现这种结果

2.3.9 面包屑导航

Google结果列表中经常出现面包屑导航格式，原本显示URL的地方，改为面包屑导航。
面包屑的每一级名称都是指向对应分类页面的链接，可以直接点击访问分类页面。
2014年12月，Google取消了这些链接，面包屑名称只是纯文字，不能点击。

2.4 搜索引擎工作原理简介

搜索引擎的工作过程大体上可以分成三个阶段。

（1）爬行和抓取：

搜索引擎蜘蛛通过跟踪链接发现和访问网页，读取页面HTML代码，存入数据库。

（2）预处理：

索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理，以备排名程序调用。

（3）排名：

用户输入查询词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

2.4.1 爬行和抓取

爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。

1．蜘蛛

蜘蛛（spider）或机器人（bot）：搜索引擎用来爬行和访问页面的程序

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。
蜘蛛程序发出页面访问请求后，服务器返回HTML代码，蜘蛛程序把收到的代码存入原始页面数据库。
搜索引擎使用多个蜘蛛并发分布爬行

先访问网站根目录下的robots.txt文件。
如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。
蜘蛛有标明自己身份的用户代理名称
可以在日志文件中看到搜索引擎的特定用户代理，从而辨识搜索引擎蜘蛛。

常见的搜索引擎蜘蛛名称：

(1) 百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm) (2) 360蜘蛛:Mozilla/5.0(Windows; U; Windows NT 5.1; zh-CN;)Firefox/1.5.0.11;360Spider (3) 英文雅虎:Mozilla/5.0 (compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp) (4) Google蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html) (5) Google移动蜘蛛:Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html) (6) 微软Bing蜘蛛:Mozilla/5.0 (compatible; bingbot/2.0;+http://www.bing.com/bingbot.htm) (7) 搜狗蜘蛛:Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) (8) 有道蜘蛛:Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)

2．跟踪链接

搜索引擎蜘蛛名称的由来：

整个互联网是由相互链接的网站及页面组成
搜索引擎蜘蛛跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样

爬行遍历策略分为两种，一种是深度优先，另一种是广度优先

(1) 深度优先：蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行

(2) 广度优先：蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三层页面。

最大的搜索引擎也只是爬行和收录了互联网的一小部分。

3．吸引蜘蛛

要想让自己的更多页面被收录，就要想方设法吸引蜘蛛来抓取
几方面影响蜘蛛抓取页面的因素。

1.网站和页面权重。
2.页面更新度。
3.导入链接。
4.与首页点击距离。 ##网站上权重最高的是首页
5.URL结构。 ##短的、层次浅的URL被直观认为在网站上的权重相对较高

4．地址库

搜索引擎会建立一个地址库，记录已经被发现、但还没有抓取的页面，以及已经被抓取的页面。

蜘蛛在页面上发现链接后并不是马上就去访问，而是将URL存入地址库，然后统一安排抓取。

地址库中的URL有几个来源：

 （1）人工录入的种子网站 （2）蜘蛛从HTML中解析出新的链接URL，与地址库中的数据进行对比，地址库中没有的网址，存入待访问地址库。 （3）通过搜索引擎网页提交表格提交进来的网址。 （4）通过XML网站地图、站长平台提交的网址。

搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的

5．文件存储

搜索引擎蜘蛛抓取的数据存入原始页面数据库。
其中的页面数据与用户浏览器得到的HTML是完全一样的。
每个URL都有一个独特的文件编号。

6．爬行时的复制内容检测

蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。

遇到权重很低的网站上大量转载或抄袭内容时，很可能不再继续爬行。

2.4.2 预处理

“预处理”简称为“索引”，索引是预处理最主要的内容。

搜索引擎蜘蛛抓取的原始页面，并不能直接用于查询排名处理，必须经过预处理，为最后的查询排名做好准备。

1．提取文字

搜索引擎以文字内容为基础。蜘蛛抓取到的页面HTML代码，预处理首先要做的是从HTML文件中去除标签、程序，提取出可以用于排名处理的页面文字内容。

 <div id="post-1100" class="post-1100 post hentry category-seo"> <div class="posttitle"> <h2><a href="http://www.gzhytextile.com/h-nd-9.html#_np=105_337"        rel="bookmark" title="什么是经编网眼布">什么是经编网眼布</a></h2>

除去HTML代码后，剩下的用于排名的文字只是这一行：

什么是经编网眼布

除了可见文字，搜索引擎也会提取出一些特殊的包含文字信息的代码
Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。

2．中文分词

分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面内容及用户查询都是以词为基础的。
中文分词方法基本上有两种，一种是基于词典匹配，另一种是基于统计。

(1). 基于词典匹配的方法是：将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，切分出一个单词。

按照扫描方向，基于词典的匹配法可以分为:正向匹配和逆向匹配
按照匹配长度优先级的不同，又可以分为:最大匹配和最小匹配
将扫描方向和长度优先混合，又可以产生正向最大匹配、逆向最大匹配等不同方法。

词典匹配方法计算简单，其准确度在很大程度上取决于词典的完整性和更新情况

(2). 基于统计的分词方法：分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。

基于统计的方法的优势是对新出现的词反应更快速，也有利于消除歧义

基于词典匹配和基于统计的分词方法各有优劣，分词系统都是混合使用两种方法的，快速高效，又能识别生词、新词，消除歧义。

中文分词的准确性往往影响搜索引擎排名的相关性。
搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏，而不是取决于页面本身如何

唯一能做的是在页面上用某种形式提示搜索引擎，
比如在页面标题、h1标签及黑体中出现关键词

3．去停止词

停止词：页面内容中都会有一些出现频率很高，却对内容没有任何影响的词

中文常见的：

如“的”、“地”、“得”之类的助词，
“啊”、“哈”、“呀”之类的感叹词，
“从而”、“以”、“却”之类的副词或介词

英文中的常见停止词有the, a, an, to, of等

搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

4．消除噪声

对页面主题也没有什么贡献，对页面主题只能起到分散作用，这些区块都属于噪声

比如版权声明文字、导航条、广告等

搜索引擎需要识别并消除这些噪声，排名时不使用噪声内容。

5．去重

搜索引擎需要对页面进行去重处理。
在进行索引前还需要识别和删除重复内容，这个过程就称为“去重”。
“去重”的基本方法是对页面特征关键词计算指纹：

从页面主体内容中选取最有代表性的一部分关键词（经常是出现频率最高的关键词），
然后计算这些关键词的数字指纹。
关键词选取是在分词、去停止词、消噪之后。

典型的指纹计算方法如MD5算法。

6．正向索引

正向索引也可以简称为索引。

搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如图所示：

每个文件都对应一个文件ID，文件内容被表示为一串关键词的集合。实这样的数据结构就称为正向索引。

7．倒排索引

正向索引还不能直接用于排名。

搜索引擎会将正向索引数据库重新构造为倒排索引把文件对应到关键词的映射转换为关键词到文件的映射，如表图所示：

在倒排索引中关键词是主键，每个关键词都对应着一系列文件，这些文件中都出现了这个关键词。

8．链接关系计算

链接关系计算也是预处理中很重要的一部分。

所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。

Google PR值就是这种链接关系的最主要体现之一。

9．特殊文件处理

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。

目前的搜索引擎还不能处理图片和视频，对Flash这类非文字内容，以及脚本和程序只能进行有限的处理。

10．质量判断

在预处理阶段，搜索引擎会对页面内容质量、链接质量等作出判断。

质量判断包含很多因素，并不局限于针对关键词的提取和计算，或者针对链接进行数值计算。

比如对页面内容的判断，很可能包括了用户体验、页面排版、广告布局、语法、页面打开速度等，
也可能会涉及模式识别、机器学习、人工智能等方法。

2.4.3 排名

用户在搜索框填入查询词后，排名程序调用索引库数据，计算排名显示给用户，排名过程是与用户直接互动的。

1．搜索词处理

搜索词处理包括如下几方面：

（1）中文分词。——将查询字符串转换为以词为基础的关键词组合

（2）去停止词。——最大限度地提高排名相关性及效率。

（3）指令处理。——默认处理方式是在关键词之间使用“与”逻辑。

（4）拼写错误矫正。

（5）整合搜索触发。

（6）搜索框提示。——根据热门搜索数据给出多组可能的查询词

2．文件匹配

以词为基础的关键词集合，文件匹配阶段就是找出含有所有搜索关键词的所有文件。

3．初始子集的选择

用于最后相关性计算的初始页面子集的选择，依靠其他特征而不是相关性，其中最主要的就是页面权重。

4．相关性计算

计算相关性是排名过程中最重要的一步。相关性计算是搜索引擎算法中最令SEO感兴趣的部分。
影响相关性的主要因素包括以下几方面：

（1）关键词常用程度。

越常用的词对搜索词的意义贡献越小，越不常用的词对搜索词的意义贡献越大。
搜索引擎对搜索词串中的关键词并不是一视同仁地处理，而是根据常用程度进行加权。
不常用的词加权系数高，常用词加权系数低，排名算法对不常用的词给予更多关注。

（2）词频及密度。

在没有关键词堆积的情况下，搜索词在页面中出现的次数越多，密度越高，说明页面与搜索词越相关。

（3）关键词位置及形式。

关键词出现在比较重要的位置，说明页面与关键词越相关，如标题标签、黑体、H1等

（4）关键词距离。

切分后的关键词完整匹配地出现，说明与搜索词最相关。

（5）链接分析及页面权重。

页面有越多以搜索词为锚文字的导入链接，说明页面的相关性越强。

5．排名过滤及调整

一些有作弊嫌疑的页面，虽然按照正常的权重和相关性计算排到前面，但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。

6．排名显示

调用原始页面的标题标签、说明标签、快照日期等数据显示有时候动态生成页面摘要

7．搜索缓存

把最常见的搜索词及结果存入缓存，用户搜索时直接从缓存中调用

8．查询及点击日志

搜索用户的IP地址、搜索的查询词、搜索时间，以及点击了哪些结果页面，搜索引擎都记录形成日志。
日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等有重要意义

2.5 链接原理

现在的搜索引擎都使用链接分析技术减少垃圾，提高用户体验。
在排名中计入链接因素，使传统关键词匹配无法排名的文件能够被处理。
通过链接信息，搜索引擎就可以了解图片和视频的内容从而排名。
链接因素现在已经超过页面内容的重要性。不过理解链接关系比较抽象。
链接对排名的影响就无法直观了解，也很难进行统计，只能做定性观察和分析。

2.5.1 李彦宏超链分析专利

李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请。

提出了与传统信息检索系统不同的基于链接的排名方法。

除了索引页面之外，还建立一个链接词库，记录链接锚文字的一些相关信息，

如锚文字中包含哪些关键词，发出链接的页面索引，包含特定锚文字的链接总数，包含特定关键词的链接都指向哪些页面。
词库不仅包含关键词原型，也包含同一个词干的其他衍生关键词。

根据链接数据，尤其是锚文字，计算出基于链接的文件相关性。

在用户搜索时，将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用，得到更准确的排名。

2.5.2 HITS算法

HITS是英文Hyperlink-Induced Topic Search的缩写，意译为“超链诱导主题搜索”。

HITS算法由Jon Kleinberg于1997年提出，并申请了专利。

按照HITS算法，用户输入查询词后，算法对返回的匹配页面计算两种值：

一种是枢纽值（Hub Scores），另一种是权威值（Authority Scores），这两个值是互相依存、互相影响的。

枢纽值，指的是页面上所有导出链接指向页面的权威值之和。
权威值指的是所有导入链接所在页面的枢纽值之和。

HITS算法是针对特定查询词的，所以称为主题搜索。
HITS算法的最大缺点是，它在查询阶段进行计算，而不是在抓取或预处理阶段。

2.5.3 TrustRank算法

TrustRank是基于链接关系的排名算法。TrustRank可以翻译为“信任指数”。

TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究，用来检测垃圾网站，并且于2006年申请专利。

Google商标中的TrustRank指的是Google检测含有恶意代码网站的方法，而不是指排名算法中的信任指数。

TrustRank算法基于一个基本假设：好的网站很少会链接到坏的网站。反之则不成立

很多垃圾网站会链接到高权威、高信任指数的网站，试图提高自己的信任指数。

计算TrustRank值首先要选择一批种子网站，然后人工查看网站，设定一个初始TrustRank值。

挑选种子网站有两种方式：

一种是选择导出链接最多的网站，因为TrustRank算法就是计算指数随着导出链接的衰减。
另一种挑选种子网站的方法是选PR值高的网站，因为PR值越高，在搜索结果页面出现的概率就越大。

根据测算，挑选出两百个左右网站作为种子，就可以比较精确地计算出所有网站的TrustRank值。

计算TrustRank随链接关系减少的公式有两种方式：

A.一种是随链接次数衰减，也就是说如果第一层页面TrustRank指数是100，第二层页面衰减为90，第三层衰减为80。
B.第二种计算方法是按导出链接数目分配TrustRank值，也就是说，如果一个页面的TrustRank值是100，页面上有5个导出链接，每个链接将传递20%的TrustRank值。

衰减和分配这两种计算方法通常综合使用，整体效果都是随着链接层次的增加，TrustRank值逐步降低。

得出网站和页面的TrustRank值后，可以通过两种方式影响排名：

一种是把传统排名算法挑选出的相关页面，根据TrustRank值比较，重新做排名调整。
另一种是设定一个最低的TrustRank值门槛，只有超过这个门槛的页面，才被认为有足够的质量进入排名，低于门槛的页面将被认为是垃圾页面，从搜索结果中过滤出去。

现在的搜索引擎排名算法中，TrustRank概念使用更为广泛，常常影响大部分网站的整体排名。

在搜索引擎算法中，TrustRank值也通常表现在域名级别，整个域名的信任指数越高，整体排名能力就越强。

2.5.4 Google PR

PR是PageRank的缩写。

Google PR理论是所有基于链接的搜索引擎理论中最有名的。

PR是Google创始人之一拉里佩奇发明的，用于表示页面重要性的概念。

即，反向链接越多的页面就是越重要的页面，因此PR值也就越高。

1．PR的概念和计算

互联网由结点及链接组成的有向图，页面就是一个个结点，页面之间的有向链接传递着页面的重要性。

一个链接传递的PR值决定于链接所在页面的PR值，发出链接的页面本身PR值越高，所能传递出去的PR也越高。

传递的PR值也取决于页面上的导出链接数目。

一个页面的PR值取决于导入链接总数，链接源页面的PR值，以及链接源页面上的导出链接数目。
PR值计算公式是：
PR(A)=(1-d)+d(PR(t1)/C(t1)+ … +PR(tn)/C(tn))
A代表页面A。
PR(A)则代表页面A的PR值。
d为阻尼指数。通常认为d=0.85。
t1…tn代表链接向页面A的页面t1到tn。
C代表页面上的导出链接数目。
C(t1)即为页面t1上的导出链接数目。

从概念及计算公式都可以看到，PR值必须经过多次迭代计算才能得到。

2．PR的两个比喻模型

一个比喻是投票。

链接就像民主投票一样，A页面链接到B页面，就意味着A页面对B页面投了一票，使得B页面的重要性提高。
同时，A页面本身的PR值决定了A所能投出去的投票力，PR值越高的页面，投出的票也更重要。
传统基于关键词匹配的算法是看页面自己说页面内容是什么，基于链接的PR则是看别人怎么评价一个页面。

第二个是随机冲浪比喻。

所谓PR值，就是一个页面在这种随机冲浪访问中被访问到的概率。
一个页面导入链接越多，被访问到的概率就越高，因此PR值也越高。

3．工具条PR

工具条PR值并不是真实PR值的精确反映。

A.真实PR值是一个准确的、大于0.15、没有上限的数字，工具条上显示的PR值已经规范化为0～10这11个数字，是一个整数。
B.真正的PR值是不间断计算更新中的，工具条PR值只是某一个时间点上真实PR值的简化快照输出。
c.工具条PR与反向链接数目呈对数关系，而不是线性关系。

4．关于PR的几个误解

准确地说PageRank这个名字应该翻译为佩奇级别，而不是页面级别。

不过约定俗成，再加上巧妙的一语双关，大家都把PR称为页面级别。

PR值只与链接有关。

有反向链接就有PR，没有反向链接就没有PR。

工具条PR值更新与页面排名变化在时间上没有对应关系。

5．PR的意义

PR是Google排名算法中的重要因素之一。除了直接影响排名，PR的重要性还体现在下面几点：

（1）网站收录深度和总页面数。

（2）访问及更新频率。

（3）重复内容判定。

（4）排名初始子集的选择。

2.5.5 Hilltop算法

Hilltop算法是由Krishna Baharat在2000年左右所研究的，于2001年申请了专利，并且把专利授权给Google使用.

Hilltop算法可以简单理解为与主题相关的PR值。

Hilltop算法同样是计算链接关系，不过它更关注来自主题相关页面的链接权重。

在Hilltop算法中把主题相关页面称为专家文件。

按Hilltop算法的最初构想，一个页面至少要有两个来自专家文件的链接，才能返回一定的Hilltop值，不然返回的Hilltop值将为零。

根据专家文件链接计算的分值被称为LocalRank。

排名程序根据LocalRank值，对原本传统排名算法计算的排名做重新调整，给出最后排名。这是搜索引擎排名阶段最后的过滤和调整步骤。

Hilltop算法提示SEO，建设外部链接时更应该关注主题相关，并且本身排名就不错的网站和页面。

2.6 用户怎样浏览和点击搜索结果

2.6.1 英文搜索结果页面

页面浏览最主要的研究方法是视线跟踪（eye-tracking），使用特殊的设备跟踪用户目光在结果页面上的浏览及点击数据。

2.6.2 中文搜索结果页面

中文搜索结果点击率没有英文那样急剧下降的趋势。

预估中文关键词流量时，不能照搬英文点击数据，要参考自己网站的点击数据。

2.6.3 整合搜索及个人化搜索

用户视线及点击的最新趋势几个提示：

A. 自然排名位置依然至关重要。用户即使不知道自然排名会在搜索结果的什么地方出现，还会主动去寻找。
B.虽然其他干扰因素吸引了大量注意力，但还没有吸引同等比例的点击，点击还是集中在自然排名上。
C.尽一切力量、方法丰富自己页面的显示格式，加图片、加视频、加入新闻源、加schema标记形成富摘要和知心搜索/知识图谱、加地图和本地信息等。
D.现在不仅仅排名位置重要，展现方式也越来越重要。

2.7 高级搜索指令

2.7.1 双引号

把搜索词放在双引号中，代表完全匹配搜索。

搜索结果返回的页面包含双引号中出现的所有词，连顺序也必须完全匹配。
百度和Google都支持这个指令。

使用双引号搜索可以更准确地找到特定关键词的竞争对手。

2.7.2 减号

减号（-）代表搜索不包含减号后面的词的页面。

使用这个指令时，减号前面必须是空格，减号后面没有空格，紧跟着需要排除的词。
百度和Google都支持这个指令。

使用减号也可以更准确地找到需要的文件，尤其是某些词有多种意义时。

2.7.3 星号

星号（*）是常用的通配符，也可以用在搜索中。

百度不支持*号搜索指令。

2.7.4 inurl:

inurl：指令用于搜索查询词出现在URL中的页面。

inurl：指令支持中文和英文。

由于关键词出现在URL中对排名有一定影响，使用inurl：搜索可以更准确地找到竞争对手。

2.7.5 inanchor:

inanchor：指令返回的结果是导入链接锚文字中包含搜索词的页面。

百度不支持inanchor：指令。

2.7.6 intitle:

intitle：指令返回的是页面Title中包含关键词的页面。

百度和Google都支持intitle:指令。

Title是目前页面优化的最重要因素。

做SEO的人无论要做哪个词的排名，都会把关键词放进Title中。
因此使用intitle指令找到的文件才是更准确的竞争页面。
如果关键词只出现在页面可见文字中，而没有出现在Title中，大部分情况是并没有针对关键词进行优化，也不是有力的竞争对手。

2.7.7 allintitle:

allintitle：搜索返回的是页面标题中包含多组关键词的文件。

例如，allintitle:SEO搜索引擎优化，
就相当于：intitle:SEO intitle：搜索引擎优化，
返回的是标题中既包含“SEO”，也包含“搜索引擎优化”的页面。

2.7.8 allinurl:

与allintitle：类似。

allinurl:SEO搜索引擎优化,
就相当于：
inurl:SEO inurl：搜索引擎优化

2.7.9 filetype:

filetype用于搜索特定的文件格式。

百度和Google都支持filetype：指令。

百度只支持下面几种文件格式：pdf, doc, xls, ppt, rtf, all。其中的“all”表示搜索百度所有支持的文件类型。

Google则支持所有能索引的文件格式，包括HTML、PHP等。

filetype：指令用来搜索特定的资源，比如PDF电子书、Word文件等非常有用。

2.7.10 site:

site：用来搜索某个域名下的所有文件。

比如搜索site:http://seozac.com
返回的就是http://seozac.com这个域名下的所有页面。

这个指令是查询网站收录页面数的最简单方法。

不过site：指令很不准确，只能作为参考。

百度site:指令还显示了来自百度站长平台的信息和链接。

2.7.11 link:

link：用来搜索某个url的反向链接，既包括内部链接，也包括外部链接。

搜索：link: http://seozac.com，返回的就是http://seozac.com的反向链接。
搜索：link: seozac.com-site:http://seozac.com，返回的则是http://seozac.com的外部链接，已去除http://seozac.com域名本身的页面

Google的link：指令返回的链接只是Google索引库中的一部分，而且是近乎随机的一部分，所以用link：指令查反向链接几乎没有用。

百度则不支持link:指令。

2.7.12 linkdomain:

linkdomain：指令只适用于雅虎，返回的是某个域名的反向链接。

当年雅虎的反向链接数据还比较准确，是SEO人员研究竞争对手外部链接情况的重要工具之一。

随着雅虎放弃自己的搜索技术，这个指令已作废。

2.7.13 related:

related：指令只适用于Google，返回的结果是与某个网站有关联的页面。

这种关联到底指的是什么，Google并没有明确说明，一般认为指的是有共同外部链接的网站。

2.7.14 综合使用高级搜索指令

例1：inurl:gov减肥

返回的就是URL中包含“gov”，页面中有“减肥”这个词的页面。

例2：inurl:.http://edu.cn交换链接

返回的是来自．http://edu.cn，也就是学校域名上的包含“交换链接”这个词的页面

例3：inurl:.http://edu.cn intitle：交换链接

返回的则是来自http://edu.cn域名，标题中包含“交换链接”这四个字的页面

例4：inurl:http://edu.cn/forum/*register

返回的结果是在．http://edu.cn域名上，url中包含“forum”以及“register”这两个单词的页面

例5：减肥inurl:links

返回的是与减肥有关且URL中包含“links”这个单词的页面。
很多站长把交换链接页面命名为links.html等，所以这个指令返回的就是与减肥主题相关的交换链接页面。

例6：allinurl:gov.cn+links

返回的是URL中包含“gov.cn”和“links”的页面，也就是政府域名上的交换链接页面。

关键词：索引

网站
营销
设计
运营
优化
效率
专注
电商
方案
推广

解决方案&服务

客户&案例

营销资讯

关于我们