有一个项目,我要对页面每天19点开始爬,每隔30分钟爬取一次,直到爬取到增量内容后停止,然后明日19点再循环。配置如下@every(minutes=30)
def on_start(self):
...@config(age=24 * 60 * 60)
def index_page(self, response):
...这样设置,every=每30分钟,age=每24小时,可以起到定时启动的效果吗?如果要发起每天19点开始的定时功能,除了第一次在19点点run之外,还有没有更合适的方法?此外,该项目的网页,在内容相同的情况下,URL会变化。请问除了手动对比本地数据库之外,有没有更合适的办法去监测从而只爬取增量?
添加回答
举报
0/150
提交
取消