为了账号安全,请及时绑定邮箱和手机立即绑定

连续的分页采集问题

连续的分页采集问题

凤凰求蛊 2019-03-30 11:32:25
目标站点:http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm获取内容:正文图片和文字说明;本人实现方法:因为分页地址是连续的,我是在目标地址上做循环http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm用get_headers访问后获取返回是否为200,是的话进行内容抓取1、curl获取当前地址html后,截取所需内容2、_2这个就是变量,自增后继续判断下一页是否可以访问,可以访问就继续采集以上是可以实现采集抓取的,但是好像速度很慢,而且每次都是curl去抓取对服务器貌似也有压力问题:如何改进,大家是如何用php做的抓取,求思路和方向
查看完整描述

1 回答

?
皈依舞

TA贡献1851条经验 获得超3个赞

下面不是有分页么,直接获取
里面的链接存到数组抓吧
                            
查看完整回答
反对 回复 2019-03-30
  • 1 回答
  • 0 关注
  • 368 浏览
慕课专栏
更多

添加回答

了解更多

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信