为了账号安全,请及时绑定邮箱和手机立即绑定

抓取 API

抓取 API

慕侠2389804 2021-12-09 15:27:16
大家,早安,我尝试在此站点上收集有关汽车的数据:https : //www.caramigo.eu/为此,我需要在主页的搜索栏上针对指定的位置和日期启动一个请求。这为我提供了一个这样的页面:https : //www.caramigo.eu/be/fr/recherche?address=Belgique%2C+Wallonie%2C+Li%C3%A8ge%2C+4000%2C+Li%C3% A8ge&date_debut=22-03-2019&date_fin=23-03-2019然后我可以通过我的网络浏览器的开发工具恢复 JSON 文件中的数据并将其废弃。问题是 JSON 文件在我每次启动对新位置的请求时都会更改,并且位于相同的 URL ( https://www.caramigo.eu/services/car )。有没有人知道我如何创建一个蜘蛛,它会启动一个请求,获取 JSON 文件,然后报废它?或者我可以如何直接更改 API 上的数据以获取其他位置?提前致谢 !
查看完整描述

1 回答

?
互换的青春

TA贡献1797条经验 获得超6个赞

Scrapy 过滤对已经访问过的 URL 的请求,以避免循环。由于您需要的资源始终使用相同的 URL,Scrapy 将对其进行过滤。


但是您可以通过dont_filter=True在请求中使用来禁用它。例如。:


yield scrapy.Request(

   url='https://www.caramigo.eu/services/car',

   dont_filter=True,

   callback=self.parse_item

)


查看完整回答
反对 回复 2021-12-09
  • 1 回答
  • 0 关注
  • 190 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信