我想抓取网站上的内容,但是好多内容都js生成的,请问有没有能够解析js的库方便抓取页面js解析后的html库啊?比如商城产品信息,QQ空间内容等。不管什么语言,能够快速开发就行,谢谢
5 回答
Smart猫小萌
TA贡献1911条经验 获得超7个赞
感觉你的问题可以不一定要那么重量级的东西的。
你要抓的页面内容,你知道它是从 js 来的,那么这个 js 是从哪里来的?可能是页面本身有的,也可能是 ajax 的 json 。
找出包含你需要的内容的这些 js ,然后是 json 的话用一个 json parser ,是 js 的话简单的也可以用正则提取。
一只甜甜圈
TA贡献1836条经验 获得超5个赞
Qyouu
TA贡献1786条经验 获得超11个赞
从你的描述听起来,是想抓页面,但是页面里内容是JS生产的,你用抓页面的方法,抓下来一个空壳子,啥也没有。对吧?
这样的话,我建议你使用“无头浏览器”,首推楼上说的PhantomJS,它本质上就是个浏览器,只是没有用户界面而已,通过编程来调用,最后可以和你的外部代码产生一些交互,给你返回(最终生成的)HTML、给你截图等等。
MYYA
TA贡献1868条经验 获得超4个赞
添加回答
举报
0/150
提交
取消