为了账号安全,请及时绑定邮箱和手机立即绑定

Scrapy 没有使用 extract_first() 获得干净的文本

Scrapy 没有使用 extract_first() 获得干净的文本

犯罪嫌疑人X 2021-11-02 19:23:07
我正在尝试从网站上的许多跨度标签下抓取一些文本,但没有获得干净的文本,任何帮助将不胜感激!这是网址:https://www.example.com这就是我正在尝试的response.xpath('//div[@class="agency-header__address"]').extract_first()预期输出:Level 18, 25 Bligh Street, SYDNEY, NSW 2000
查看完整描述

3 回答

?
摇曳的蔷薇

TA贡献1793条经验 获得超6个赞

您可以通过提取获得所需的文本字符串表示div

response.xpath('string(//div[@class="agency-header__address"])').extract_first()


查看完整回答
反对 回复 2021-11-02
?
万千封印

TA贡献1891条经验 获得超3个赞

您需要获取text()给定 xpath 中所有内容的 xpath。例如:

result = response.xpath('//div[@class="agency-header__address"]//text()').extract()

这将返回多个span元素,因此您必须使用extract(). 然后,您可以根据需要加入并清理它,例如:

''.join(result).replace('\xa0', ' ')


查看完整回答
反对 回复 2021-11-02
  • 3 回答
  • 0 关注
  • 191 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信