由于爬取目标网站时,get数据返回的是一个json格式的结构,要对子字段中的html字符串进行xpath解析,这时不能使用response.xpath(或者说是有别的方式,我不知道..),而是对response.text的下面的子字段进行解析,此时只能重新实例化xpath,想问下这个在实际项目中算是正确的处理方式吗?
2 回答
收到一只叮咚
TA贡献1821条经验 获得超4个赞
json获取的html片段可以用scrapy.selector下的Selector构造实例,用xpath和css选择器解析>>>fromscrapy.selectorimportSelector>>>body='good'>>>Selector(text=body).xpath('//span/text()').get()'good'还可以使用BeautifulSoup,lxml,pyquery等库搭配使用.
添加回答
举报
0/150
提交
取消