近期在新浪微博上关注了一个相当有料的博主,个人大概有两万多条微博的数据,基本上是以纯文字居多。有没有做过数据采集的和爬虫的小伙伴,说说这部分思路和理解?(个人也在摸索)
5 回答
至尊宝的传说
TA贡献1789条经验 获得超10个赞
Java
没做过微博的,但思路的话大概就是先获取认证Cookie,Token之类的,然后用Fiddler抓包,主要是抓请求数据的接口,然后在用Jsoup把微博的部分抓下来进行持久化。
关于源的话应该有App接口,或者是PC网页和H5网页,看哪个更加容易选哪个。
添加回答
举报
0/150
提交
取消