已解决430363个问题，去搜搜看，总会有你想问的

关于微博的爬虫问题！！？

首页猿问关于微博的爬虫问题！！？

关于微博的爬虫问题！！？

爬虫

白板的微信 2018-10-05 18:56:44

不知道各位爬虫过微博的页面么？今天我试了试，获取到的html内容居然不是我想要的！！全是js内容，我猜测微博是实用js文件加载内容的。那么问题来了，我要怎么获取js加载后的页面内容呢？就是body里面的标签内容。我使用的是nodejs，superangert、cheerio、express。望大神赐教，小弟感恩不尽。

查看完整描述

2 回答

潇潇雨雨

TA贡献1833条经验获得超4个赞

1）用正常的URL请求取访问，获取返回的内容存在本地发文件后，check下和最终的HTML文件内容有那些区别
2）你用下chrome的开发工具或firebug等工具查看页面的网络请求，查找其中的有关的http请求，特别是那些JSONP的请求
3）有些内容是要LAZY加载的，还需要你进一步观察~~~~
4）如果你对实时性要求不高的，可以考虑用phantomJS或electron等框架，让HTML渲染引擎完全渲染后，在抓取内容

总之，现在页面越来越难抓了~~~，
另外爬虫，要用到express么？superangert用来做代理？

反对回复 2018-10-14

2 回答
0 关注
978 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

关于微博的爬虫问题！！？

关于微博的爬虫问题！！？

2 回答

添加回答