时间:2023-03-27 10:56:01 | 来源:电子商务
时间:2023-03-27 10:56:01 来源:电子商务
减少搜索引擎工作量
降低工作难度
轻松快速抓取页面
准确提取页面内容
意味权威度高、内容可靠
参与相关性计算的基本条件
蜘蛛爬行
页面收录
排序
搜索广告在网络营销行业经常称为PPC,由广告商针对关键词进行竞价,
SEO最关注的是占据页面主体的自然搜索结果。
统计数据显示,自然搜索结果总点击访问数要远远大于广告点击数。
整合内容的优化也是SEO可以考虑的方向。
某些权重比较高的网站
最权威的内容来源
显示三行、两列共6个内页链接
对某些权重比较高的网站,当用户搜索一个查询词,这个网站的结果是最权威的内容来源时,Google除了正常结果列表外,还可能显示三行、两列共6个内页链接,称为全站链接(Sitelinks)
> 由Google开始,称为One-box > 百度倾向于框计算
诸如天气、体育比赛成绩、计算器、计量单位换算、距离计算、航班火车信息等
基于语义识别技术 将网上不同来源的知识点整合起来 以更系统的方式展现给用户 必要的地方链接相应的页面或搜索结果 搜索人名、地名、实体、事件、专业词汇等知识类查询词时经常出现这种结果
搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。(2)预处理:
索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。(3)排名:
用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。2.4.1 爬行和抓取
搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。
蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。
搜索引擎使用多个蜘蛛并发分布爬行
百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm)
(2) 360蜘蛛:Mozilla/5.0(Windows; U; Windows NT 5.1; zh-CN;)Firefox/1.5.0.11;360Spider
(3) 英文雅虎:Mozilla/5.0
(compatible;Yahoo!Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)
(4) Google蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)
(5) Google移动蜘蛛:Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)
(6) 微软Bing蜘蛛:Mozilla/5.0 (compatible; bingbot/2.0;+http://www.bing.com/bingbot.htm)
(7) 搜狗蜘蛛:Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)
(8) 有道蜘蛛:Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)
整个互联网是由相互链接的网站及页面组成
搜索引擎蜘蛛跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样
1.网站和页面权重。
2.页面更新度。
3.导入链接。
4.与首页点击距离。 ##网站上权重最高的是首页
5.URL结构。 ##短的、层次浅的URL被直观认为在网站上的权重相对较高
蜘蛛在页面上发现链接后并不是马上就去访问,而是将URL存入地址库,然后统一安排抓取。
(1)人工录入的种子网站 (2)蜘蛛从HTML中解析出新的链接URL,与地址库中的数据进行对比,地址库中没有的网址,存入待访问地址库。 (3)通过搜索引擎网页提交表格提交进来的网址。 (4)通过XML网站地图、站长平台提交的网址。
搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的
搜索引擎蜘蛛抓取的数据存入原始页面数据库。
其中的页面数据与用户浏览器得到的HTML是完全一样的。
每个URL都有一个独特的文件编号。
遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。
<div id="post-1100" class="post-1100 post hentry category-seo"> <div class="posttitle"> <h2><a href="http://www.gzhytextile.com/h-nd-9.html#_np=105_337" rel="bookmark" title="什么是经编网眼布">什么是经编网眼布</a></h2>
除去HTML代码后,剩下的用于排名的文字只是这一行:什么是经编网眼布
按照扫描方向,基于词典的匹配法可以分为:正向匹配和逆向匹配词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况
按照匹配长度优先级的不同,又可以分为:最大匹配和最小匹配
将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。
唯一能做的是在页面上用某种形式提示搜索引擎,
比如在页面标题、h1标签及黑体中出现关键词
如“的”、“地”、“得”之类的助词,英文中的常见停止词有the, a, an, to, of等
“啊”、“哈”、“呀”之类的感叹词,
“从而”、“以”、“却”之类的副词或介词
比如版权声明文字、导航条、广告等搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。
从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),
然后计算这些关键词的数字指纹。
关键词选取是在分词、去停止词、消噪之后。
比如对页面内容的判断,很可能包括了用户体验、页面排版、广告布局、语法、页面打开速度等,
也可能会涉及模式识别、机器学习、人工智能等方法。
越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。(2)词频及密度。
搜索引擎对搜索词串中的关键词并不是一视同仁地处理,而是根据常用程度进行加权。
不常用的词加权系数高,常用词加权系数低,排名算法对不常用的词给予更多关注。
在没有关键词堆积的情况下,搜索词在页面中出现的次数越多,密度越高,说明页面与搜索词越相关。(3)关键词位置及形式。
关键词出现在比较重要的位置,说明页面与关键词越相关,如标题标签、黑体、H1等(4)关键词距离。
切分后的关键词完整匹配地出现,说明与搜索词最相关。(5)链接分析及页面权重。
页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。
调用原始页面的标题标签、说明标签、快照日期等数据显示 有时候动态生成页面摘要
搜索用户的IP地址、搜索的查询词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志。
日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等有重要意义
提出了与传统信息检索系统不同的基于链接的排名方法。
如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。
词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
枢纽值,指的是页面上所有导出链接指向页面的权威值之和。
权威值指的是所有导入链接所在页面的枢纽值之和。
Google商标中的TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。
很多垃圾网站会链接到高权威、高信任指数的网站,试图提高自己的信任指数。
一种是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减。
另一种挑选种子网站的方法是选PR值高的网站,因为PR值越高,在搜索结果页面出现的概率就越大。
A.一种是随链接次数衰减,也就是说如果第一层页面TrustRank指数是100,第二层页面衰减为90,第三层衰减为80。衰减和分配这两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank值逐步降低。
B.第二种计算方法是按导出链接数目分配TrustRank值,也就是说,如果一个页面的TrustRank值是100,页面上有5个导出链接,每个链接将传递20%的TrustRank值。
一种是把传统排名算法挑选出的相关页面,根据TrustRank值比较,重新做排名调整。现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。
另一种是设定一个最低的TrustRank值门槛,只有超过这个门槛的页面,才被认为有足够的质量进入排名,低于门槛的页面将被认为是垃圾页面,从搜索结果中过滤出去。
在搜索引擎算法中,TrustRank值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。
即,反向链接越多的页面就是越重要的页面,因此PR值也就越高。
链接就像民主投票一样,A页面链接到B页面,就意味着A页面对B页面投了一票,使得B页面的重要性提高。第二个是随机冲浪比喻。
同时,A页面本身的PR值决定了A所能投出去的投票力,PR值越高的页面,投出的票也更重要。
传统基于关键词匹配的算法是看页面自己说页面内容是什么,基于链接的PR则是看别人怎么评价一个页面。
所谓PR值,就是一个页面在这种随机冲浪访问中被访问到的概率。
一个页面导入链接越多,被访问到的概率就越高,因此PR值也越高。
A.真实PR值是一个准确的、大于0.15、没有上限的数字,工具条上显示的PR值已经规范化为0~10这11个数字,是一个整数。
B.真正的PR值是不间断计算更新中的,工具条PR值只是某一个时间点上真实PR值的简化快照输出。
c.工具条PR与反向链接数目呈对数关系,而不是线性关系。
不过约定俗成,再加上巧妙的一语双关,大家都把PR称为页面级别。
有反向链接就有PR,没有反向链接就没有PR。
按Hilltop算法的最初构想,一个页面至少要有两个来自专家文件的链接,才能返回一定的Hilltop值,不然返回的Hilltop值将为零。根据专家文件链接计算的分值被称为LocalRank。
排名程序根据LocalRank值,对原本传统排名算法计算的排名做重新调整,给出最后排名。这是搜索引擎排名阶段最后的过滤和调整步骤。Hilltop算法提示SEO,建设外部链接时更应该关注主题相关,并且本身排名就不错的网站和页面。
A. 自然排名位置依然至关重要。用户即使不知道自然排名会在搜索结果的什么地方出现,还会主动去寻找。2.7 高级搜索指令
B.虽然其他干扰因素吸引了大量注意力,但还没有吸引同等比例的点击,点击还是集中在自然排名上。
C.尽一切力量、方法丰富自己页面的显示格式,加图片、加视频、加入新闻源、加schema标记形成富摘要和知心搜索/知识图谱、加地图和本地信息等。
D.现在不仅仅排名位置重要,展现方式也越来越重要。
搜索结果返回的页面包含双引号中出现的所有词,连顺序也必须完全匹配。使用双引号搜索可以更准确地找到特定关键词的竞争对手。
百度和Google都支持这个指令。
使用这个指令时,减号前面必须是空格,减号后面没有空格,紧跟着需要排除的词。使用减号也可以更准确地找到需要的文件,尤其是某些词有多种意义时。
百度和Google都支持这个指令。
百度不支持*号搜索指令。
inurl:指令支持中文和英文。由于关键词出现在URL中对排名有一定影响,使用inurl:搜索可以更准确地找到竞争对手。
百度不支持inanchor:指令。
百度和Google都支持intitle:指令。Title是目前页面优化的最重要因素。
做SEO的人无论要做哪个词的排名,都会把关键词放进Title中。
因此使用intitle指令找到的文件才是更准确的竞争页面。
如果关键词只出现在页面可见文字中,而没有出现在Title中,大部分情况是并没有针对关键词进行优化,也不是有力的竞争对手。
例如,allintitle:SEO搜索引擎优化,
就相当于:intitle:SEO intitle:搜索引擎优化,
返回的是标题中既包含“SEO”,也包含“搜索引擎优化”的页面。
allinurl:SEO搜索引擎优化,
就相当于:
inurl:SEO inurl:搜索引擎优化
百度和Google都支持filetype:指令。百度只支持下面几种文件格式:pdf, doc, xls, ppt, rtf, all。其中的“all”表示搜索百度所有支持的文件类型。
比如搜索site:http://seozac.com这个指令是查询网站收录页面数的最简单方法。
返回的就是http://seozac.com这个域名下的所有页面。
不过site:指令很不准确,只能作为参考。百度site:指令还显示了来自百度站长平台的信息和链接。
搜索:link: http://seozac.com,返回的就是http://seozac.com的反向链接。Google的link:指令返回的链接只是Google索引库中的一部分,而且是近乎随机的一部分,所以用link:指令查反向链接几乎没有用。
搜索:link: seozac.com-site:http://seozac.com,返回的则是http://seozac.com的外部链接,已去除http://seozac.com域名本身的页面
返回的就是URL中包含“gov”,页面中有“减肥”这个词的页面。例2:inurl:.http://edu.cn交换链接
返回的是来自.http://edu.cn,也就是学校域名上的包含“交换链接”这个词的页面例3:inurl:.http://edu.cn intitle:交换链接
返回的则是来自http://edu.cn域名,标题中包含“交换链接”这四个字的页面例4:inurl:http://edu.cn/forum/*register
返回的结果是在.http://edu.cn域名上,url中包含“forum”以及“register”这两个单词的页面例5:减肥inurl:links
返回的是与减肥有关且URL中包含“links”这个单词的页面。例6:allinurl:gov.cn+links
很多站长把交换链接页面命名为links.html等,所以这个指令返回的就是与减肥主题相关的交换链接页面。
返回的是URL中包含“gov.cn”和“links”的页面,也就是政府域名上的交换链接页面。
关键词:索引