Scrapy 没有得到完整的产品名称，用逗号替换一些字符？

我正在使用 scrapy 在中国电子商务网站天猫上获取产品名称和价格。代码非常简单，但是当它抓取名称时，它用逗号替换了产品名称的某些部分。对于下面的示例，我输入了“ipad air 3”，第一个产品的名称是“Apple/苹果 10.5 英寸 iPad Air”。“10.5英寸iPad Air”部分显示颜色不同，我想是因为它与搜索关键字相匹配。但我不确定为什么 scrapy 在产品名称的那部分得到“,,,,”。有谁知道我可以尝试修复它的潜在方法？综上所述，我想要得到的结果是“Apple/苹果 10.5英寸 iPad air”；然而，我得到的结果是“Apple/苹果'、''、''、''、'”。这是屏幕截图：我得到的网页结果items = TmallspiderItem()product_info = response.css('.product-iWrap')for product in product_info: product_name = product.css('.productTitle a::text').extract() product_price = product.css('.productPrice em::text').extract() items['product_name'] = product_name items['product_price'] = product_price yield items

查看完整描述

1 回答

慕雪6442864

TA贡献1812条经验获得超5个赞

Apple/苹果 Apple/苹果 10.5 英寸 iPad Air

</a>

如您所见，您尝试获取的名称被拆分为多个span元素。

您的 css 选择器仅选择作为a元素的直接子元素的文本节点，因此它不会获取这些元素的内容。

您可以修改选择器以获取所有后代并加入它们，但我建议改用normalize-space()xpath 函数。

>>> product.css('.productTitle a::text').extract()

['\nApple/苹果 ', ' ', ' ', ' ', '\n']

>>> product.css('.productTitle a ::text').extract()

['\nApple/苹果 ', '10.5', ' ', '英寸', ' ', 'iPad', ' ', 'Air', '\n']

>>> product.css('.productTitle a').xpath('normalize-space()').get()

'Apple/苹果 10.5 英寸 iPad Air'

反对回复 2023-02-22

热搜

最近搜索清空

Scrapy 没有得到完整的产品名称，用逗号替换一些字符？

Scrapy 没有得到完整的产品名称，用逗号替换一些字符？

1 回答

添加回答