为了账号安全,请及时绑定邮箱和手机立即绑定

顺序抓取抓取网址

顺序抓取抓取网址

蛊毒传说 2019-09-24 15:27:37
所以,我的问题相对简单。我有一只蜘蛛在多个站点上爬行,我需要它按照我在代码中写入的顺序返回数据。它发布在下面。from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelectorfrom mlbodds.items import MlboddsItemclass MLBoddsSpider(BaseSpider):   name = "sbrforum.com"   allowed_domains = ["sbrforum.com"]   start_urls = [       "http://www.sbrforum.com/mlb-baseball/odds-scores/20110328/",       "http://www.sbrforum.com/mlb-baseball/odds-scores/20110329/",       "http://www.sbrforum.com/mlb-baseball/odds-scores/20110330/"   ]   def parse(self, response):       hxs = HtmlXPathSelector(response)       sites = hxs.select('//div[@id="col_3"]//div[@id="module3_1"]//div[@id="moduleData4952"]')       items = []       for site in sites:           item = MlboddsItem()           item['header'] = site.select('//div[@class="scoreboard-bar"]//h2//span[position()>1]//text()').extract()# | /*//table[position()<2]//tr//th[@colspan="2"]//text()').extract()           item['game1'] = site.select('/*//table[position()=1]//tr//td[@class="tbl-odds-c2"]//text() | /*//table[position()=1]//tr//td[@class="tbl-odds-c4"]//text() | /*//table[position()=1]//tr//td[@class="tbl-odds-c6"]//text()').extract()           items.append(item)       return items结果以随机顺序返回,例如,它返回29,然后28,然后30。我已经尝试将调度程序的顺序从DFO更改为BFO,以防万一这是问题所在,但这并没有任何改变。
查看完整描述

3 回答

?
繁花如伊

TA贡献2012条经验 获得超12个赞

start_urls定义在start_requests方法中使用的URL 。parse下载页面时,将为您的方法调用每个起始URL的响应。但是您无法控制加载时间-第一个起始URL可能最后一个到达parse

一个解决方案-覆盖start_requests方法并添加到生成的请求metawith中priority。在parse提取此priority值并将其添加到中item。在管道中,基于此值执行某些操作。(我不知道为什么需要这些URL以及在何处按此顺序进行处理)。

或使其具有同步性-将这些起始网址存储在某个地方。放在start_urls第一个。在parse过程中的第一个响应并得到项目(S),然后从你的存储下一个URL,并作出请求它回调parse


查看完整回答
反对 回复 2019-09-24
  • 3 回答
  • 0 关注
  • 524 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信