所在位置:
首页 >
营销资讯 >
网站运营 > 爬虫系列之新浪微博爬虫源码weibospider_v2
爬虫系列之新浪微博爬虫源码weibospider_v2
时间:2023-05-14 19:06:01 | 来源:网站运营
时间:2023-05-14 19:06:01 来源:网站运营
爬虫系列之新浪微博爬虫源码weibospider_v2:爬虫方式:
1 爬取某个话题的所有的评论
2 爬取某个博主的所有微博的评论
3 爬取某个博主的所有粉丝的用户信息,位置信息
以“迪丽热巴的微博”为案例,爬取热巴的所有微博,所有微博评论,所有粉丝的用户信息,并对所有的粉丝进行位置分析,在地图上显示粉丝分布。
1 requests_weibo.py功能:爬取迪丽热巴的所有的微博,微博内容的text保存在excel中,包括微博id
2 requests_weibo_comment.py 功能:读取热巴所有的微博id, 爬取某个微博的所有评论内容,粉丝id
3 user_infro.py 功能:读取所有粉丝id, 爬取微博用户(热巴粉丝)的基本信息(生日,位置,性别)。粉丝信息接口在代码中。
4 map_weibo_fensi.py: 对粉丝的性别和位置信息进行可视化
注意事项:
新浪微博评论内容获取时,url参数第1页,第2页至第15页,第16页及以后页码,参数是不同的。
第1页:https://m.weibo.cn/comments/hotflow?id=4511519801087016&mid=4511519801087016
第2 -15 页:max_id_type 的数值为 0
https://m.weibo.cn/comments/hotflow?id=4511519801087016&mid=4511519801087016&max_id=1290444946018013&max_id_type=0第16页及以后:
从第16页开始max_id_type 的数值为 1, 这里最后是通过请求获取该值,不要手动修改为1。
效果图
项目源码下载地址: