15158846557 在线咨询 在线咨询
15158846557 在线咨询
所在位置: 首页 > 营销资讯 > 网站运营 > 爬虫系列之新浪微博爬虫源码weibospider_v2

爬虫系列之新浪微博爬虫源码weibospider_v2

时间:2023-05-14 19:06:01 | 来源:网站运营

时间:2023-05-14 19:06:01 来源:网站运营

爬虫系列之新浪微博爬虫源码weibospider_v2:爬虫方式:





1 爬取某个话题的所有的评论

2 爬取某个博主的所有微博的评论

3 爬取某个博主的所有粉丝的用户信息,位置信息




以“迪丽热巴的微博”为案例,爬取热巴的所有微博,所有微博评论,所有粉丝的用户信息,并对所有的粉丝进行位置分析,在地图上显示粉丝分布。







1 requests_weibo.py功能:爬取迪丽热巴的所有的微博,微博内容的text保存在excel中,包括微博id

2 requests_weibo_comment.py 功能:读取热巴所有的微博id, 爬取某个微博的所有评论内容,粉丝id

3 user_infro.py 功能:读取所有粉丝id, 爬取微博用户(热巴粉丝)的基本信息(生日,位置,性别)。粉丝信息接口在代码中。

4 map_weibo_fensi.py: 对粉丝的性别和位置信息进行可视化




注意事项:

新浪微博评论内容获取时,url参数第1页,第2页至第15页,第16页及以后页码,参数是不同的。

第1页:https://m.weibo.cn/comments/hotflow?id=4511519801087016&mid=4511519801087016 第2 -15 页:max_id_type 的数值为 0

https://m.weibo.cn/comments/hotflow?id=4511519801087016&mid=4511519801087016&max_id=1290444946018013&max_id_type=0

第16页及以后:

从第16页开始max_id_type 的数值为 1, 这里最后是通过请求获取该值,不要手动修改为1。

效果图







项目源码下载地址:



关键词:爬虫,系列

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭