时间:2022-07-05 14:57:01 | 来源:建站知识
时间:2022-07-05 14:57:01 来源:建站知识
最近看到我拉网(55.la)主页上新增了一个在线制作robots的功能,用户打开robots.55.la后,把不允许被搜索引擎访问的部分输入到Disallow: 后,点击“生成robots.txt文件”,便能立即生成。这是一个实用快捷的站长工具。
也许很多站长对robots.txt已经很熟悉了,但对于一些新人来说,它或许有些模糊,下面我就来说说有关robots的一些相关内容。
1、什么是robots?它的作用?
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
可以在你的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。其实也就是通过robots.txt可以控制SE收录内容,告诉蜘蛛哪些文件和目录可以收录,哪些不可以收录。
2、为什么要设置robots.txt?
恰当地设置robots.txt,可以更好地维护Web 服务器,提高网站的综合性能。
①相关研究表明,如果网站采用了自定义的404错误页面,那么Spider将会把其视作robots.txt——虽然其并非一个纯粹的文本文件——这将给Spider索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。
②robots.txt可以制止不必要的搜索引擎占用服务器的宝贵带宽,如image strippers,对于大多数非图形类网站来说其也没有太大意义,但却耗用大量带宽。
③robots.txt可以制止搜索引擎对非公开页面的爬行与索引。
④对于内容丰富、页面数量较多的网站来说,配置robots.txt可以阻止洪水般的Spider访问,如果不加控制,甚至会影响网站的正常访问。
从SEO的角度,robots.txt文件是一定要设置的,原因:
①网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。
②网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。
③一些没有关键词的页面,屏蔽掉更好。
④一般情况下,站内的搜索结果页面屏蔽掉更好。
3、几种情况需要注意:
①robots.txt应用小写的,它的文件要放在网站根目录下。
举个例子,当robots访问一个网站(比如)时,搜索机器人(搜索蜘蛛)首先会检查该网站中是否存在. 55.la /robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
②Disallow:
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html。
③任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,那说明该网站是开放的,所有的内容都可以被搜索机器人搜索到。
4、用几个最常见的情况,直接举例说明:
①允许所有SE收录本站:robots.txt为空就可以,什么都不要写。
②禁止所有SE收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
③禁止某个SE收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
④禁止所有SE收录本站:
User-agent: *
Disallow: /
⑤加入sitemap.xml路径,例如:
Sitemap:
关键词: