为了账号安全,请及时绑定邮箱和手机立即绑定

怎么爬到网站未显示出来的那部分数据?

怎么爬到网站未显示出来的那部分数据?

呼啦一阵风 2019-02-20 19:21:08
尝试爬了一个国外的招聘网站www.indeed.com. 当选择了在美国的职位后,网页返回的搜索结果大概有3百万条。但是网页每次显示10条,最终有100页。 我用的python request 和beautifulsoup 能爬下这1000条数据。但是我的目标是爬下这近3百万条的数据。期间尝试过先爬完显示的100页然后进行多次的循环,也就是反复的爬这100页。但是重复率很高。 有没有很好地解决办法能爬完所有的搜索结果(近300万的数据)?
查看完整描述

3 回答

?
互换的青春

TA贡献1797条经验 获得超6个赞

你需要自动化测试框架

查看完整回答
反对 回复 2019-03-04
?
沧海一幻觉

TA贡献1824条经验 获得超5个赞

使用selenium自动化测试框架,或者简单的,用splash,直接向splash发送请求,更推荐splash,更方便直接

查看完整回答
反对 回复 2019-03-04
?
MMTTMM

TA贡献1869条经验 获得超4个赞

用post查询连接应该返回就是你需要的相关数据了
这是要用到的参数
q=java
jt=fulltime
start=210

查看完整回答
反对 回复 2019-03-04
  • 3 回答
  • 0 关注
  • 733 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信