为了账号安全,请及时绑定邮箱和手机立即绑定

编码问题无法解决,对百度百科词条的爬虫

这个错误怎么解决啊,python 3.5 

 UnicodeEncodeError: 'gbk' codec can't encode character '\u02c8' in position 19: illegal multibyte sequence

正在回答

6 回答

我用的python3

加了下面两行代码就行了

fout = open('output.html','w',encoding='utf-8')
fout.write('<head><meta charset="utf-8"></head>')

1 回复 有任何疑惑可以回复我~
#1

ABSmiLT

赞一个。。这个最优雅
2016-10-08 回复 有任何疑惑可以回复我~
#2

leve__9

啊我也是用的3,但是都快给乱码的问题搞死了,什么都可以就是乱码搞不定,试过好多种方法都不行,你的也试了
2016-10-11 回复 有任何疑惑可以回复我~

可以尝试一下 gb2312编码,ignore参数,我猜是因为打开时用的utf-8

fout.write("<td>%s</td>"% data['title'].encode('gb2312', 'ignore'))

1 回复 有任何疑惑可以回复我~
#1

慕课的浩浩

谢谢,你这个方法解决了我的问题
2016-09-28 回复 有任何疑惑可以回复我~

在html_outputer中加fout.write('<head><meta charset="utf-8"></head>'),可以试一下

1 回复 有任何疑惑可以回复我~

编码格式的问题,最好把错误信息贴出来!

0 回复 有任何疑惑可以回复我~

把gbk改成utf-8

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227674    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

编码问题无法解决,对百度百科词条的爬虫

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信