TA贡献1868条经验 获得超4个赞
一般python的console只能识别GBK的中文,unicode与utf-8都不可以。
LZ先查一下爬的网页的编码格式,然后用decode转码成unicode格式的,再用encode转码成GBK,就能正确输出了。
html = '<p>***<p>' #比如说这是爬取下来的网页,编码格式为utf-8 html.decode( 'utf-8' ).encode( 'GBK' ) print html
TA贡献1891条经验 获得超3个赞
一般是编码不对,看清是utf8还是gb2312
从 0 开始学爬虫
¥ 68.00
举报