时间:2022-07-23 11:30:01 | 来源:建站知识
时间:2022-07-23 11:30:01 来源:建站知识
上星期百度姐讲了自己提高百度文库通过率的几点方法(百度姐:如何提高百度文库通过率),当时也有说到要把百度知道火车头采集方法告诉大家,今天就讲讲百度知道的采集方法。
第一步:下载百度知道的规则。
百度知道的规则下载:
火车头规则的卷写需要看到页面程序,现在就不讲怎么写采集规则了,百度姐直接把自己写的规则放出来,大家可以直接下载,导入到火车头里面就可以使用了。
百度姐的这个规则是搜索“祛斑”关键词的一个规则。如果大家需要采集其他关键词的百度知道,可以相应修改一下就ok了。
第二步:下载火车头。
大家可以上网上下载也可以用百度姐已经下载好的,百度姐使用的是火车采集器8.0,截至到现在应该算最高版本了,百度姐用的是免费版本的,所以有限功能会有现在,但是免费版本的采集内容到本地服务器还是可以的。貌似没有发布功能。
火车采集器8.0下载:
第三步:安装火车采集器8.0。
下载了火车采集器8.0之后,直接解压就可以使用了。打开解压的文件夹,点击LocoyPlatform文件就可以了。
第四步:导入百度知道采集规则。
先创建一个分组,随便命名,方便自己以后查找使用。百度姐创建了一个百度知道的分组。如图:
选择我们刚刚创建的百度知道分组,点击右键,选择导入任务至该组。点击确定。如图:
第五步:开始采集。
选择刚刚导入的祛斑百度知道规则,勾选采网址、 采内容和发布(发布功能貌似免费版本没有此功能)。
极度条到头就采集成功。如下图,这次总共是采集了355条。这个百度知道可以每天都采集,因为百度知道每天都会更新。
第六步:本地数据。
选择任务(就是刚刚上传的祛斑规则),右键选择编辑任务,百度姐给大家详细介绍一下这个规则的几个重要的东西。如下图:
1.第一步采集网站规则:这一步主要是抓起百度知道列表页中的网址,百度知道每页10篇网址。
A.选择起始网址,在选择修改,就可以修改采集其他关键词百度知道了。这个可能有些复杂,等过段时间,百度姐详细截图演示一下。
B.勾选检测重复网址。那么第二次采集的时候就不会重新采集之前已经采集过了的网址。
C.测试网址。在没有开始采集或者采集出现错误的时候,可以先测试是否是网址抓起失败。出现前面的加号,就代表第一步网址抓起没有出现问题。
2.第二布:采集内容规则。
A、百度姐这边的百度知道规则只抓取问题(问题标签),最佳答案(问题1标签)和第二个答案(问题2标签),如果大家需要抓抓取第三个答案,就必须添加问题3的标签,需要查看页面代码,找出此答案前后唯一的代码才可以。这块百度姐以后花时间详细写一下。
B、典型页面。这边可以找一个知道的内容页,有最佳答案和第二个答案的,点击测试,就可以看到此网页采集到的内容。如果没有最佳答案,问题1的部分是空白的。第二个答案也是一样的,如果页面中没有第二个答案,那么这个采集到的问题2的部分就是空白的。
C、如果百度知道采集太多,会出现采集不到内容的问题,如下图1,这是因为百度官方限制。所以采集的时候不要频繁采集。把网址放浏览器打开就如图2,如果条件允许,可以买个vpn更换ip,就可以继续使用了。
图1:
图2:
3.第三步:发布内容设置。
A、看截图红框的部分,设置好路径,采集成功后,直接找到文件打开就可以了。
B、如果打不开,大家可以现在数据库软件Access安装,在打开。百度姐用的是Access2003,提供下载地址。
Access2003下载地址:
今天就说到这里吧,微信上有朋友跟我要火车头百度知道的采集规则,如果有想要的朋友可以微信百度姐:baidujie。如果不出意外的话,下次博文会放出来,会更细节一些,大家感兴趣的可以把百度姐的博客收藏到浏览器收藏夹,百度姐每周最少周二会更新。百度姐感激大家的关注!
原创地址:
关键词:方法,采集