为了账号安全,请及时绑定邮箱和手机立即绑定

一个困惑了很久的爬虫问题

一个困惑了很久的爬虫问题

浮云间 2018-07-31 05:10:00
http://app1.sfda.gov.cn/datasearch/face3/content.jsp?tableId=41&tableName=TABLE41&tableView=%E8%8D%AF%E5%93%81%E7%BB%8F%E8%90%A5%E4%BC%81%E4%B8%9A&Id=4 这个网址,浏览器能正常访问,但是使用代码(jsoup、crawler4j、phantomjs都试过了)去访问,就只能拿到js。拿不到想要的数据,是什么原因呢?经过不断摸索,发现是cookie过期时间很短,很快就失效了,求解决办法。贴个jsoup代码吧
查看完整描述

1 回答

?
缥缈止盈

TA贡献2041条经验 获得超4个赞

它的页面会重新生成cookie,你要分析js,你清除该网站所有cookie,会发现第一次请求的时候有一个返回302的请求.那个是返回加密过的js代码,直接看代码看不懂,要调试才能知道一些,而且这个是给window处理的.

我试过浏览器模拟,可以获取数据.

代码获取较麻烦,需要处理几乎每个页面都重新生成的FSSBBIl1UgzbN7N80T,暂时还未解决,如果你有进展麻烦回复,谢谢.


查看完整回答
反对 回复 2018-08-19
  • 1 回答
  • 0 关注
  • 675 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信