为了账号安全,请及时绑定邮箱和手机立即绑定

刮表没有提供结果

刮表没有提供结果

紫衣仙女 2021-10-05 15:39:59
我以为我现在已经很好地掌握了这一点,但我又遇到了一个问题。我没有得到这样的结果 - 但是如果我将产量移回一个标签 - 我会得到可疑的前两个项目。这是日志的一个小片段:2019-01-07 20:00:16 [scrapy.extensions.logstats] INFO: Crawled 1 pages (at 1 pages/min), scraped 0 items (at 0 items/min)2019-01-07 20:00:16 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.mysite.no.html?dest_id=-263870;checkin=2019-02-01;checkout=2019- 02-02;group_adults=1 via http://localhost:8050/render.html> (referer: None)这是函数:    def parse(self, response):      item = klekkenItem()    item['skaptdato'] = datetime.datetime.now()    url_en = response.url # Henter urlen    resultat = urlparse(url_en).query.split('=')[-3]  # Plukker ut deler av urlen    nytt_resultat = resultat.split(';',1)[0] # plukker ut første del av resultatet    fradatoen = ''.join(nytt_resultat) # gjør om datoen til en streng    item['fradato'] = datetime.datetime.strptime(fradatoen, '%Y-%m-%d') # Konverterer til datoformat                    tabellen = response.css('td.hprt-table-cell-roomtype')          for room in tabellen:        romnavnet = room.css('span.hprt-roomtype-icon-link::text').get()            item['romnavn'] = romnavnet.strip()         yield item这是[页面][1]的链接顺便说一句:我已经四次检查了我的标签(五次)......我错过了什么?任何人?我确定这是一个盲点。
查看完整描述

2 回答

?
精慕HU

TA贡献1845条经验 获得超8个赞

尝试使用生成器:


def parse(self, response):

    pass # your implementation



res = self.parse(some_response)  # it's a generator, lazy..

for i in res:

   print(i) # should consume the generator and print


查看完整回答
反对 回复 2021-10-05
?
慕田峪9158850

TA贡献1794条经验 获得超7个赞

tabellen = response.css('td.hprt-table-cell-roomtype')

romnavnet = room.css('span.hprt-roomtype-icon-link::text').extract()    #use extract function or `extract_first()`

这个给你 4 行,而第一个是多余的,其他三个有数据。


您不需要使用 splash 来获取这些数据。它在网页上静态可用。



查看完整回答
反对 回复 2021-10-05
  • 2 回答
  • 0 关注
  • 215 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号