为了账号安全,请及时绑定邮箱和手机立即绑定

在新浪微博现行的架构里,我如何爬取单个用户的所有微博?

在新浪微博现行的架构里,我如何爬取单个用户的所有微博?

幕布斯6054654 2019-03-12 17:15:02
近期在新浪微博上关注了一个相当有料的博主,个人大概有两万多条微博的数据,基本上是以纯文字居多。有没有做过数据采集的和爬虫的小伙伴,说说这部分思路和理解?(个人也在摸索)
查看完整描述

5 回答

?
红颜莎娜

TA贡献1842条经验 获得超12个赞

我之前做过一个爬微博文章的,用的是puppeteer.js,完全模拟的是用户行为,不会被屏蔽检测
你可以看下这个库

查看完整回答
反对 回复 2019-04-04
?
富国沪深

TA贡献1790条经验 获得超9个赞

爬微博是犯法的哟,请仔细阅读微博的用户协议。所以偷偷搞就是了,不要这么大张旗鼓的……


查看完整回答
反对 回复 2019-04-04
?
至尊宝的传说

TA贡献1789条经验 获得超10个赞

Java
没做过微博的,但思路的话大概就是先获取认证Cookie,Token之类的,然后用Fiddler抓包,主要是抓请求数据的接口,然后在用Jsoup把微博的部分抓下来进行持久化。
关于源的话应该有App接口,或者是PC网页和H5网页,看哪个更加容易选哪个。

查看完整回答
反对 回复 2019-04-04
?
红糖糍粑

TA贡献1815条经验 获得超6个赞

微博有自己的开放平台,你可以通过微博的API获取,没必要用爬虫


查看完整回答
反对 回复 2019-04-04
  • 5 回答
  • 0 关注
  • 608 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信