时间:2023-03-17 00:00:01 | 来源:电子商务
时间:2023-03-17 00:00:01 来源:电子商务
搜索引擎预处理一共分为六步骤1. 提取文字:搜索引擎以文字内容为基础,从网页文件中去除标签、程序,剔除可以用于排名的网页文字内容,同时在优化网站时,页面内容尽量以文字为主,方便蜘蛛提取用于排名的内容2. 中文分词:搜索引擎将抓取到的页面中的文字提取出来后,需要对提取出来的文字进行拆分重组,这个过程称为中文分词。现在的搜索引擎检索标题时也用上了中文分词算法,所以取一个好的标题尤为重要(中文分词算法后面会有会有详细的举例说明)3. 去除重复页面:将分词后的页面进行对比,去除重复的页面,同一片文章经常会重复出现不同网站及同一个网站的不同网址上,搜索引擎并不喜欢重复的也难内容,用户搜索时,如果在搜索引擎结果页排名靠前的位置看到的都是来自不同网站但都是同一篇文章,用户体验会很差,搜索引擎是很在乎用户体验的,对于搜索引擎而言,更倾向于高质量的文章内容4. 计算网页的重要度:搜索引擎会根据网页的被指向链接数及页面的原创性两个因素综合判断,计算出页面的重要程度,所以提供高质量的原创文章给搜索引擎,网页的重要程度与页面得分会越高,那么网页的排名就越高,网站的权重也会随之增长5. 建立索引:建立索引,是建立关键词与网页之间的对应关系,其好处在于能快速的获取对应的数据,简单来说,依靠的就是提前对页面建立了索引6. 分析链接:链接关系是预处理中很重要的一步,主流搜索引擎排名因为都包含网页之间的链接信息,需要计算出页面上有哪些链接指向哪些其他页面,形成了网站和页面的链接权重,链接式用来传递权重的。FASRWQRT叔公瞥窃韭较诺关键词: