大家,早安,我尝试在此站点上收集有关汽车的数据:https : //www.caramigo.eu/为此,我需要在主页的搜索栏上针对指定的位置和日期启动一个请求。这为我提供了一个这样的页面:https : //www.caramigo.eu/be/fr/recherche?address=Belgique%2C+Wallonie%2C+Li%C3%A8ge%2C+4000%2C+Li%C3% A8ge&date_debut=22-03-2019&date_fin=23-03-2019然后我可以通过我的网络浏览器的开发工具恢复 JSON 文件中的数据并将其废弃。问题是 JSON 文件在我每次启动对新位置的请求时都会更改,并且位于相同的 URL ( https://www.caramigo.eu/services/car )。有没有人知道我如何创建一个蜘蛛,它会启动一个请求,获取 JSON 文件,然后报废它?或者我可以如何直接更改 API 上的数据以获取其他位置?提前致谢 !
1 回答
互换的青春
TA贡献1797条经验 获得超6个赞
Scrapy 过滤对已经访问过的 URL 的请求,以避免循环。由于您需要的资源始终使用相同的 URL,Scrapy 将对其进行过滤。
但是您可以通过dont_filter=True在请求中使用来禁用它。例如。:
yield scrapy.Request(
url='https://www.caramigo.eu/services/car',
dont_filter=True,
callback=self.parse_item
)
添加回答
举报
0/150
提交
取消