编码问题,现在是unicode,没法用xpath
请问老师及各位朋友,我现在抓取的网页,源代码是unicode,直接使用response.xpath是不能正确匹配的。
但是如果,我将response.text转码为utf-8后赋值给一个str变量,str是不能使用xpath的。
但是同时response.text又不能修改(即转码后给自身赋值)。
这种情况有什么好的办法嘛
请问老师及各位朋友,我现在抓取的网页,源代码是unicode,直接使用response.xpath是不能正确匹配的。
但是如果,我将response.text转码为utf-8后赋值给一个str变量,str是不能使用xpath的。
但是同时response.text又不能修改(即转码后给自身赋值)。
这种情况有什么好的办法嘛
2020-02-03
已解决,使用lxml的etree配合转码可以解决。
目前转码后发现,爬去的返回信息是JS和data,网页是动态生成的,这个怎么爬取呢
目标网页:
举报