时间:2023-11-19 06:06:01 | 来源:网站运营
时间:2023-11-19 06:06:01 来源:网站运营
想用爬虫抓取新浪微博的内容,但查看新浪微博的页面源代码,却看不到微博的内容,请问这是什么原因?:因为PC端微博的源码包裹在了FM.view/((.*)/)这个块中。你需要先用正则表达式把它提取出来,然后就可以拿到页面的内容了。另外有一些内容是通过ajax动态加载的,比如评论列表、用户主页的部分微博数据。我写了一个分布式的微博爬虫,其中对微博解析模块做了大量的工作,可以参考一下
关键词:内容,爬虫