所在位置:
首页 >
营销资讯 >
网络营销 > 分析五个robots实用案例 学习robots的语句使用方法
分析五个robots实用案例 学习robots的语句使用方法
时间:2022-05-13 04:24:01 | 来源:网络营销
时间:2022-05-13 04:24:01 来源:网络营销
网站robots.txt相信作为网站的一个必须文件,每一个站长都接触过,robots文件控制蜘蛛的爬取,对文件的抓取具有很重要的意义,可以防止不想让曝光的文件隐藏起来,控制抓取的路径,从而让网站更加合适的出现在搜索引擎SERP界面中,那么,这篇文章就介绍一些robots的实用案例介绍robots的技巧和解释一下robots语句的判别方法。
(1):allow和disallow的顺序案例
笔者书写一段robots文件的语句
User-agent: *
Allow: /
Disallow: /abcd/
相信从这样一段中可以理解,肯定是想屏蔽/abcd/文件夹,不让蜘蛛爬取这个文件夹中的网站文件;但是经过分析却发现,这段语句和最终所造成的结果却是大相径庭的,蜘蛛任然会爬取/abcd/文件夹;原因就在于蜘蛛从这里的获取的规则是从上而下获取的,在下面所写的规则不能打败在上面所写的规则,如果按照影响范围来解释上面的情况的话,那就是,因为已经设置了Allow: /那么对蜘蛛的影响是全局性的,允许蜘蛛访问这个网站所有的文件,而在第三行中,Disallow: /abcd/,设置之后,就是在前一个影响范围之中进行的,本身abcd文件夹就是在网站目录中,也收到了第二条的影响,所以,第三条是无效的,那么可以说来,这段robots.txt的写法中,蜘蛛任然可以抓取/abcd/文件夹。
User-agent: *
Disallow: /abcd/
Allow: /
这个例子仅仅是将顺序颠倒了一番,可是去可以让蜘蛛访问/abcd/文件夹,如果你看懂了上一个例子的解释的话,那么你肯定知道是为什么?笔者来说下吧,这个例子中,由于Disallow: /abcd/在前面,那么由于限制的出现,它所影响的文件夹是/abcd/文件夹,在第三行中Allow: /,影响的范围本来是全局,但这条语句对蜘蛛的影响不能妨碍前一条语句,所以,蜘蛛本来想通过第三条语句访问全部的目录的,但是第三条语句的权限打败不了第二条语句,所以就只能放弃了,只能访问除了/abcd/之外的文件夹了。
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
在百度的robots官方说明之中,有这样一条介绍,主题是例7. 允许访问特定目录中的部分url,允许蜘蛛访问特定目录的部分URL,然后给了上述的语句,不知道大家看懂了吗?说明一下吧,在这段语句中,蜘蛛因为权限的关系,可以通过第二,三,四行,访问 /cgi-bin/see,/tmp/hi,/~joe/look,指定的文件,虽然在后面几行中,加入了disallow,但是因为后一条权限无法约束前一条,所以对于蜘蛛来说,还是可以访问allow所指定的URL的。不知道可懂了?
(2):/斜杠的应用案例
User-agent: *
Allow: /cgi-bin/
Disallow: /cgi-bin
上面是笔者随意想到的,可以在这里解释一下斜杠的使用,在上述的简答语句之中,第二行和第三行,一个有/,一个没有,其中在allow语句之中,因为有/存在,所以允许蜘蛛可以爬取文件夹cgi-bin下的网站文件,而不能控制蜘蛛是否爬取这个文件夹,也就是说/控制文件夹下的文件,不控制文件夹本身,所以在第三行中,笔者通过disallow控制不让蜘蛛爬行cgi-bin文件夹,但是不能控制第二条语句中的权限,仅仅可以控制蜘蛛爬取文件夹,所以最终,蜘蛛只能爬取cgi-bin文件夹的文件,不能爬取cgi-bin这个目录。
User-agent: *
Disallow: regnew.asp (Disallow:/regnew.asp)
上面的语句中,笔者这样写,是因为有很多朋友都会忽视/的存在,如果regnew.asp是注册页面的话,那么如果不放置/指定文件的所在地,蜘蛛可能就会找不到文件,引发错乱;记得以前笔者也设置不能访问的文件的时候,如果文件在根目录下的时候,就直接放上Disallow: ***.asp就可以了,然后却发现阻止不了蜘蛛,直到发现少了一个/之后,了解到原来缺少了一样指明的记号,那就是/,在我们平时设定文件的时候,请记得一定要加/,无论是其他目录之下的文件还是根目录。
我相信通过以上的案例对于robots的理解,看过的朋友对于robots文件肯定会有更加深刻的理解,好好观察生活的案例,做好自己的站,及时收录好网站站长,,转载请保留链接,原创亿企邦.