已解决430363个问题，去搜搜看，总会有你想问的

在新浪微博现行的架构里，我如何爬取单个用户的所有微博？

关注

首页猿问在新浪微博现行的架构里，我如何爬取...

JavaScript

幕布斯6054654 2019-03-12 17:15:02

近期在新浪微博上关注了一个相当有料的博主，个人大概有两万多条微博的数据，基本上是以纯文字居多。有没有做过数据采集的和爬虫的小伙伴，说说这部分思路和理解？（个人也在摸索）

查看完整描述

5 回答

红颜莎娜

TA贡献1842条经验获得超13个赞

我之前做过一个爬微博文章的，用的是puppeteer.js，完全模拟的是用户行为，不会被屏蔽检测
你可以看下这个库

反对回复 2019-04-04

富国沪深

TA贡献1790条经验获得超9个赞

爬微博是犯法的哟，请仔细阅读微博的用户协议。所以偷偷搞就是了，不要这么大张旗鼓的……

反对回复 2019-04-04

至尊宝的传说

TA贡献1789条经验获得超10个赞

Java
没做过微博的，但思路的话大概就是先获取认证Cookie，Token之类的，然后用Fiddler抓包，主要是抓请求数据的接口，然后在用Jsoup把微博的部分抓下来进行持久化。
关于源的话应该有App接口，或者是PC网页和H5网页，看哪个更加容易选哪个。

反对回复 2019-04-04

红糖糍粑

TA贡献1815条经验获得超6个赞

微博有自己的开放平台，你可以通过微博的API获取，没必要用爬虫

反对回复 2019-04-04

关注

0/150

提交

取消

购课补贴
联系客服咨询优惠详情

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号