时间:2022-08-06 10:12:01 | 来源:建站知识
时间:2022-08-06 10:12:01 来源:建站知识
一、Robots.txt的由来
Robots是一个网站和搜索引擎的第三方协议(早期用于隐私的保护)。
屏蔽解释:屏蔽是指不让搜索引擎放出来。百度生效会比较慢,好像就是一个老人,他已经是一个老年人了,他反映特别的慢,谷歌很快。谷歌只要你提交了,他马上抓取,24小时生效,你直接在谷歌站长管理工具里面看到屏蔽被拦截的页面。但百度不行,百度反映非常的慢。
百度经验:jingyan.baidu.com
二、Robots.txt的作用
我们的网站有很多不可抗拒性因素而导致我们的网页质量整体下降。
1、屏蔽一些无内容的页面。
登录页: /login_c.jsp
Disallow: /login_c.jsp
注册页:/register_p.jsp
Disallow: /register_p.jsp
留言页……【签到页/论坛的签到页面属于无内容页面】
这点在于不管我们的网站是论坛、商城、博客、企业站都好,现在这些页面都需要我们处理和操作的,我们只能屏蔽,不能删除。我们的目的就是为了能够实现某个功能便于用户找寻,更加好的理解我们网站。
比如我们搜索某一个词,他也会出现这样的内容。还有提示页面[搜索无结果页面]、错误页面、404页面(如果你做了的话)。你会发现我们要屏蔽的东西越来越多了。而这些东西我们都是要处理的。
2、屏蔽一些重复页面。
如评论页、dz论坛的简写版本(ative)、wordpress的RSS,这些重复的页面是我们需要进行处理的。有些重复页面是我们不得不去做的,这是没办法的事了。
3、屏蔽一些死链接页面。
我们只屏蔽那些带有普遍特征的页面。蜘蛛爬不到页面,就会显示一个404页面,就会形成死链接。
蜘蛛他爬不到并不意味着他抓取不到地址。
能否抓取到地址跟能否抓取到是2个概念。
抓取地址,我中需要一个提供地址的源头就行了。比如说我的一个页面里面,我不小心写错了一个地址,而这个超链接是不存在的,蜘蛛就会抓取不到,显示404代码,而死链接就出现了。(无中生有)
我们的网站页面原来是存在的,现在改版了,地址不存在了,而搜索引擎抓到了,现在抓不到了,而形成死链接。(原先有现在没了)
错误链接的比例达到一定程度的时候,搜索引擎就会认为你的网站不及格,给予你较低的评分,开始你的收录会下降,排名会下降。只要死链接的比例比较小,对网站的影响就不大,因为这个是无法避免的。
有的死链接是可以屏蔽的,有些死链接是不可能屏蔽的。
可以进行处理的死链接,是不需要屏蔽的。是由我们站内自己所造成的错误,我们是可以改正的。而有些不是我们造成的死链接,我们就要屏蔽,可以在IIS日志里面显示出来。
百度经验:jingyan.baidu.com
三、Robots.txt的使用
1、Robots.txt的建立
Robots.txt是一个记事本文件。
2、Robots.txt放在什么地方。
用flashFXP上传到根目录上面。
常规的根目录一般是wwwroot和web
3、常见的语法
User-agent定义搜索引擎爬取程序的(指定搜索引擎的爬取程序),他不能单独使用,要配合其它2个语法中的一个使用。
Disallow:/ 禁止允许
Allow: /
Allow要和Disallow一起使用。
常见的爬取程序
Baiduspider 百度蜘蛛谷歌机器人
Googlebot
User-agent:Baiduspider
Disallow:/admin/
我现在要指定百度搜索引擎不要抓取我的admin目录
如果robots.txt文件里面什么都没有写,那就代表着所有搜索引擎可以来抓取。默认的就是允许的。(冒号后面要有空格)
User-agent: Baiduspider
Disallow: /admin
指定百度搜索引擎不要来抓取我们的admin目录和含有以admin开头的网址。后面有斜杠的,会收录/admin.php因为这个是在根目录下的。
Allow:
他必须要和禁止一起使用的,一般来说是不会单独使用的,他和禁止语法一起使用的目的便于目录的屏蔽灵活的应用,最终的目的是为了减少代码的使用。
关键词:使用,方法,作用