为了账号安全,请及时绑定邮箱和手机立即绑定

关于监测页面变化与定时爬取增量的问题

关于监测页面变化与定时爬取增量的问题

慕斯709654 2018-10-22 22:27:49
有一个项目,我要对页面每天19点开始爬,每隔30分钟爬取一次,直到爬取到增量内容后停止,然后明日19点再循环。配置如下@every(minutes=30) def on_start(self):     ...@config(age=24 * 60 * 60) def index_page(self, response):     ...这样设置,every=每30分钟,age=每24小时,可以起到定时启动的效果吗?如果要发起每天19点开始的定时功能,除了第一次在19点点run之外,还有没有更合适的方法?此外,该项目的网页,在内容相同的情况下,URL会变化。请问除了手动对比本地数据库之外,有没有更合适的办法去监测从而只爬取增量?
查看完整描述

1 回答

?
慕丝7291255

TA贡献1859条经验 获得超6个赞

第一个问题自己解决了:
调用Python的时间日期接口,用if判断即可。
第二个问题,由于URL会变动,也许我给出的是目前唯一可用的方法。

查看完整回答
反对 回复 2018-10-22
  • 1 回答
  • 0 关注
  • 697 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信