爬虫爬出来的内容是b'\n\xe6\x8e\xa5\xe5\x8f\xa3\xe6\ 这样的字符是什么原因?
我已经在前面加了#coding=utf-8 没用
我已经在前面加了#coding=utf-8 没用
2016-08-19
我自己也有同样的问题,后来自己给自己解决了,也是参考了别的问题的答案。我再复制一份给你
方法一:
fout.write("<html><meta charset=\"utf-8\" />")
下面这些不需要再写encode('utf-8')
fout.write('<td>%s</td>'%data['url'])
fout.write('<td>%s</td>'%data['title'])
fout.write('<td>%s</td>'%data['summary'])
方法二:
fout.write("<html>")
下面这些需要再写encode('utf-8')和decode
fout.write('<td>%s</td>'%data['url'].encode('utf-8').decode('utf-8'))
fout.write('<td>%s</td>'%data['title'].encode('utf-8').decode('utf-8'))
fout.write('<td>%s</td>'%data['summary'].encode('utf-8').decode('utf-8'))
原因不懂,但解决了问题
举报