18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 建站知识 > 用火车头采集百度知道的方法

用火车头采集百度知道的方法

时间:2022-07-23 11:30:01 | 来源:建站知识

时间:2022-07-23 11:30:01 来源:建站知识

上星期百度姐讲了自己提高百度文库通过率的几点方法(百度姐:如何提高百度文库通过率),当时也有说到要把百度知道火车头采集方法告诉大家,今天就讲讲百度知道的采集方法。

第一步:下载百度知道的规则。

百度知道的规则下载:

火车头规则的卷写需要看到页面程序,现在就不讲怎么写采集规则了,百度姐直接把自己写的规则放出来,大家可以直接下载,导入到火车头里面就可以使用了。

百度姐的这个规则是搜索“祛斑”关键词的一个规则。如果大家需要采集其他关键词的百度知道,可以相应修改一下就ok了。

第二步:下载火车头。

大家可以上网上下载也可以用百度姐已经下载好的,百度姐使用的是火车采集器8.0,截至到现在应该算最高版本了,百度姐用的是免费版本的,所以有限功能会有现在,但是免费版本的采集内容到本地服务器还是可以的。貌似没有发布功能。

火车采集器8.0下载:

第三步:安装火车采集器8.0。

下载了火车采集器8.0之后,直接解压就可以使用了。打开解压的文件夹,点击LocoyPlatform文件就可以了。

第四步:导入百度知道采集规则。

先创建一个分组,随便命名,方便自己以后查找使用。百度姐创建了一个百度知道的分组。如图:

选择我们刚刚创建的百度知道分组,点击右键,选择导入任务至该组。点击确定。如图:

 

第五步:开始采集。

选择刚刚导入的祛斑百度知道规则,勾选采网址、 采内容和发布(发布功能貌似免费版本没有此功能)。

 

极度条到头就采集成功。如下图,这次总共是采集了355条。这个百度知道可以每天都采集,因为百度知道每天都会更新。

第六步:本地数据。

选择任务(就是刚刚上传的祛斑规则),右键选择编辑任务,百度姐给大家详细介绍一下这个规则的几个重要的东西。如下图:

 

1.第一步采集网站规则:这一步主要是抓起百度知道列表页中的网址,百度知道每页10篇网址。

 

A.选择起始网址,在选择修改,就可以修改采集其他关键词百度知道了。这个可能有些复杂,等过段时间,百度姐详细截图演示一下。

B.勾选检测重复网址。那么第二次采集的时候就不会重新采集之前已经采集过了的网址。

C.测试网址。在没有开始采集或者采集出现错误的时候,可以先测试是否是网址抓起失败。出现前面的加号,就代表第一步网址抓起没有出现问题。

2.第二布:采集内容规则。

A、百度姐这边的百度知道规则只抓取问题(问题标签),最佳答案(问题1标签)和第二个答案(问题2标签),如果大家需要抓抓取第三个答案,就必须添加问题3的标签,需要查看页面代码,找出此答案前后唯一的代码才可以。这块百度姐以后花时间详细写一下。

B、典型页面。这边可以找一个知道的内容页,有最佳答案和第二个答案的,点击测试,就可以看到此网页采集到的内容。如果没有最佳答案,问题1的部分是空白的。第二个答案也是一样的,如果页面中没有第二个答案,那么这个采集到的问题2的部分就是空白的。

C、如果百度知道采集太多,会出现采集不到内容的问题,如下图1,这是因为百度官方限制。所以采集的时候不要频繁采集。把网址放浏览器打开就如图2,如果条件允许,可以买个vpn更换ip,就可以继续使用了。

图1:

图2:

3.第三步:发布内容设置。

A、看截图红框的部分,设置好路径,采集成功后,直接找到文件打开就可以了。

B、如果打不开,大家可以现在数据库软件Access安装,在打开。百度姐用的是Access2003,提供下载地址。

Access2003下载地址:

今天就说到这里吧,微信上有朋友跟我要火车头百度知道的采集规则,如果有想要的朋友可以微信百度姐:baidujie。如果不出意外的话,下次博文会放出来,会更细节一些,大家感兴趣的可以把百度姐的博客收藏到浏览器收藏夹,百度姐每周最少周二会更新。百度姐感激大家的关注!

原创地址:

关键词:方法,采集

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭