我正在尝试从网站上的许多跨度标签下抓取一些文本,但没有获得干净的文本,任何帮助将不胜感激!这是网址:https://www.example.com这就是我正在尝试的response.xpath('//div[@class="agency-header__address"]').extract_first()预期输出:Level 18, 25 Bligh Street, SYDNEY, NSW 2000
3 回答
摇曳的蔷薇
TA贡献1793条经验 获得超6个赞
您可以通过提取获得所需的文本字符串表示的div
:
response.xpath('string(//div[@class="agency-header__address"])').extract_first()
万千封印
TA贡献1891条经验 获得超3个赞
您需要获取text()
给定 xpath 中所有内容的 xpath。例如:
result = response.xpath('//div[@class="agency-header__address"]//text()').extract()
这将返回多个span
元素,因此您必须使用extract()
. 然后,您可以根据需要加入并清理它,例如:
''.join(result).replace('\xa0', ' ')
添加回答
举报
0/150
提交
取消