为了账号安全,请及时绑定邮箱和手机立即绑定

在实际scrapy项目中,使用xpath,是始终使用框架自带的xpath还是也会根据情况,使用etree.HTML重新实例化呢?怎么回事哈啊?

在实际scrapy项目中,使用xpath,是始终使用框架自带的xpath还是也会根据情况,使用etree.HTML重新实例化呢?怎么回事哈啊?

MYYA 2019-08-21 13:02:45
由于爬取目标网站时,get数据返回的是一个json格式的结构,要对子字段中的html字符串进行xpath解析,这时不能使用response.xpath(或者说是有别的方式,我不知道..),而是对response.text的下面的子字段进行解析,此时只能重新实例化xpath,想问下这个在实际项目中算是正确的处理方式吗?
查看完整描述

2 回答

?
收到一只叮咚

TA贡献1821条经验 获得超4个赞

json获取的html片段可以用scrapy.selector下的Selector构造实例,用xpath和css选择器解析
>>>fromscrapy.selectorimportSelector
>>>body='good'
>>>Selector(text=body).xpath('//span/text()').get()
'good'
还可以使用BeautifulSoup,lxml,pyquery等库搭配使用.
                            
查看完整回答
反对 回复 2019-08-21
  • 2 回答
  • 0 关注
  • 330 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信