时间:2023-03-08 10:50:01 | 来源:电子商务
时间:2023-03-08 10:50:01 来源:电子商务
今天我们来简单介绍一下搜索引擎的整个工作流程的第二个系统:数据分析系统,这也是搜索引擎网页抓取收录系统之后的一个系统。搜索引擎数据分析系统主要用于处理抓取回来的网页。下面是关于这个系统的几个主要的知识点和主要流程:数据分析系统是怎么样处理这些网页的呢?
1、提取文字
我们都知道网页中包含了各种代码(Html、javascript等),这些东西无法用于排名计算,所以数据分析系统首先要做的就是删除掉这些代码,提取出文字内容。下面图1为提取文字之前,图2为提取文字之后:
2、内容消噪
我们的网站中很多页面都有对主体内容毫无影响的内容,对搜索引擎的排名计算毫无用处,比如导航文字、底部版权信息等,这些内容被比喻为网页的噪声,搜索引擎便会把他们删除,整个过程称为“消噪”。那么搜索引擎是怎样来判断哪些内容是噪声呢?很简单,采用对比即可。比如每个内容页除了真正的内容不一样以外,一般其他的“噪声”内容都是一样的,如导航文字,每个页面都一样吧,底部版权也是每个页面都一样。
3、分词处理
分词简单来说就是把一句话或一句短语分成N个词语。至于分词怎么分,搜索引擎会根据自己所拥有的词库字典和分词算法来进行分词,每个搜索引擎都是不一样的。分词又分为中文分词和英文分词。对于分词技术,都是搜索引擎内部的事情,我们seoer能做的很少,主要就是在为网站写标题以及计算关键词密度时会考虑到。
4、去无用词
无论中文还是英文的文章中,都会有很多对内容影响不大,出现频率却很高的字词,中文的如:的、地、啊、呀等等,英文的如:the、to、of、a、an等等
5、页面去重
这个就很好理解了,意思就是搜索引擎会把你这个页面与它以前抓取的页面作针对性的对比,如果有重复的,便会删除,以减少无意义的重复信息。这便是我们站长们到处找原创、伪原创文章的原因。搜索引擎的去重算法比较强大,像一般简单的增加“的”“地”“得”或者简单调换段落顺序所谓的伪原创并不能逃过它的法眼。
6、对页面的链接进行分析
这是搜索引擎数据分析系统的最后一个步骤,主要通过对该页面的内链和外链进行分析,计算其权重值,然后根据权重影响该页面关键词的排名情况。
本文来自:
关键词:系统,分析,数据,索引