时间:2023-02-02 21:40:01 | 来源:电子商务
时间:2023-02-02 21:40:01 来源:电子商务
今日,萝卜鱼在百度site笔者的萝卜居家园网的时候,发现百度收录本站的内容中至少50%的内容为评论内容,且收录重复,很有可能是由于robots.txt设置不当的缘故。萝卜鱼特地查找了一些资料,和大家一起分享一下wordpress的robots.txt的设置的相关技巧。
robots.txt是搜索引擎的蜘蛛在来到网站首先要查看的一个文件,由于网站有些内容是不想被搜索引擎抓取的,比如网站的模板文件,css文件,JS文件,管理界面等等,这时候就要设置一些robots.txt文件来使蜘蛛遵循这一些协议。
Wordpress中的robots.txt文件的存放位置在网站的根目录下,如果你自己没有设置,WP会生成一个动态的robots.txt文件。查看一个网站的robots.txt文件方法也很简单,只要在地址栏输入以下路径就可以了:你的域/robots.txt需要注意的是,文件名要全部小写哦。例如,最开始萝卜居家园网的rotobs.txt是动态生成的,其对搜索引擎并不友好:
下面,萝卜鱼为大家解释一下robots.txt的写作方法及注意事项:
1、robots.txt必须上传到你的网站根名录下,在子目录下无效;
2、robots.txt,Disallow等必须注意大小写,不能变化;
3、User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。网上有人说冒号后面必须有空格,其实没有也是可以的,请看谷歌中文网站管理员博客的设置就是这样: ;
4、User-agent表示搜索引擎开放目录:星号“*”代表对所以的搜索引擎采用下面的规则,Google的spider是“Googlebot”,百度是“Baiduspider”;
5、Disallow:表示不允许搜索引擎访问和索引的目录;
6、Allow:指明允许搜索引擎访问和索引的目录。
下面萝卜鱼来说一下wordpress博客中robots.txt的具体用法:
1、阻止搜索引擎收录wordpress博客评论及评论分页,以免出现和萝卜居家园网相同的问题。
您只需要在robots.txt文件中加入下面的语句即可:
Disallow: /comments —限制抓取评论
Disallow: /*?replytocom= —限制抓取每一个评论页面
上面的两行代码即可阻止搜索引擎收录您博客的评论及评论分页内容了!
2、阻止搜索引擎收录wordpress博客的feed订阅页面,防止出现搜索引擎索引中出现重复页面。博客都有一个订阅整站的feed,每个文章分类,每篇文章也分别有一个feed,feed页面和网站页面内容基本相同,如果feed页面没有被禁止访问,可想而知,这将会产生大量的重复页面。有博友反映将feed Disallow以后,从百度搜索引擎来的流量上升非常明显。这里请注意Disallow: /feed和最后加了反斜杠的Disallow: /feed/ 是完全不一样的。Disallow: /feed可以禁止的url包括:abc.com/feed,abc.com/feed.html,abc.com/feed/abc这三种形式,而Disallow: /feed/只能禁止搜索引擎访问abc.com/feed/abc这种目录形式,所以我们应该用Disallow: /feed。(参考于远方博客,谢谢)
Disallow: /feed —限制抓取feed内容
Disallow: /*/*/feed —限制抓取文章分类和单独文章文章页面的feed
3、阻止搜索引擎收录wordpress博客的管理页面及模板文件,这个应该是不需要提供给搜索引擎索引的。您只需要在robots.txt文件中加入下面的语句即可:
Disallow: /wp-admin —限制抓取管理员登陆页面
Disallow: /wp-content/plugins —限制抓取插件文件
Disallow: /wp-content/themes —限制抓取模板文件
Disallow: /wp-includes —限制抓取js文件
4、为wordpress提供站点地图,您可以在最后添加下面的语句:
Sitemap: http://您的域名/sitemap.xml
robots.txt文件中加入Sitemap链接,这点很重要,也是搜索引擎喜欢的。如何生成WordPress的Sitemap,您可以搜索一下相关插件,wordpress有很多插件可以生成您的站点地图的。
5、如果您实在对编写robots.txt无从下手,您可以使用百度站长工具中的robots工具来全自动生成您的robots文件,这个工具可以让您可视化的编写您的robots文件。
好了,设置好robots.txt文件后,请注意测试其的正确性,萝卜鱼推荐使用Google网站管理员工具里的“测试robots.txt”功能,非常实用。好了,本文由萝卜居家园网原创发表,转载请注明,谢谢。
关键词:设置,技巧