如何用八爪鱼采集器提取新浪微博的数据呢?
时间:2023-11-22 07:42:02 | 来源:网站运营
时间:2023-11-22 07:42:02 来源:网站运营
如何用八爪鱼采集器提取新浪微博的数据呢?:新浪微博在八爪鱼里的登录需要一定的判断条件,对于不熟悉八爪鱼的人确实存在一定困扰,这里有个八爪鱼的私人小技巧推荐给楼主,文末有彩蛋哦,这里先讲讲方法。
我用的方式也是预先登录的方法,先制作一个简单的打开新浪微博并随意采集一个字段的规则如下:
保存并启动本地采集,只提取一个字段的规则几秒就会采集完成,之后在采集完成的页面上我们就可以输入账号密码登陆了。
到这里我们相当于已经将登陆状态保存在八爪鱼内置浏览器当中了,之后就可以正常采集了,这里方便楼主我还是对采集过程做个简单的说明,我们用采集微博评论举例,这也是很多人需求的内容。
1.打开八爪鱼采集器,找到主页下自定义采集,点击立即使用。
2.输入需要采集的微博页面网址,多个网址用换行符分隔,点击保存网址。通过关键词搜索获取微博页面网址也可以使用本文方法采集,这里不多赘述。
3.打开后八爪鱼已经生成了打开网站的循环,可以看到网页已经是登录上的状态了。
4.观察网页发现如果想看更多评论需要下拉网页2次,之后点击查看更多来获取。这里我们在打开网页步骤设置页面加载完成后向下滚动,具体设置如下图:
之后循环点击查看更多来加载内容,这里我们需要提前加载到需要采集的页数后再进行采集,因为加载后的内容是一直存在的,如果边采集边翻页会造成采集内容的重复。具体设置如下:
之后循环提取所需要的评论内容即可,这里附上我提取的字段如下:
手动运行规则无误后,就可以采集了,结果如下:
这里我加载了100页的内容,所以耗时较久,楼主如果需求数据较少可以减少加载更多页次数,可以使采集更加迅速。
彩蛋彩蛋:不知道楼主有没有注意到,八爪鱼在主页下的网站简易采集下,有微博网页关键词搜索的模板,如果楼主需求不是很复杂可以直接使用简易采集的,省下了做规则的时间。八爪鱼采集器对采集新手算很友好,遇到问题往往问客服或者找爪友交流一下也能很快解决,多尝试尝试还是可以很好满足需求的。
希望可以帮助到楼主^_^