爬取页面:http://huanyouchen.github.io/demo/imooc/python-baidubaike-spider/baike_spider_output.html
代码:https://github.com/guihailiuli/imooc-practice/tree/master/python-baidubaike-spider
代码:https://github.com/guihailiuli/imooc-practice/tree/master/python-baidubaike-spider
2016-03-03
报错的同学看这里,如果是html_outputer.py的20行附近报错
在html_outputer.py的20行附近,data['summary']也要加.encode('utf-8')
原理是:百度百科实际的编码是GB2312,但是呢,直接用GB2312也会报错。。。。不用UTF-8也会报错。。。
所以全部统一用UTF-8,最终打开结果的时候,用IE打开,编码手动选一下,就全部正常了。
话说我也才学了一星期。。。有地方说错见谅
在html_outputer.py的20行附近,data['summary']也要加.encode('utf-8')
原理是:百度百科实际的编码是GB2312,但是呢,直接用GB2312也会报错。。。。不用UTF-8也会报错。。。
所以全部统一用UTF-8,最终打开结果的时候,用IE打开,编码手动选一下,就全部正常了。
话说我也才学了一星期。。。有地方说错见谅
2016-03-03
最赞回答 / 迷茫的小点点
这样生成地htm网页是utf-8编码的,但浏览器显示时不是按utf-8读取的,所以乱码。例:我用360的默认GBK,右键编码选utf-8显示就好。或者在输出网页加上以下: fout.write('<head><meta charset="utf-8"></head>')这样浏览器会识别出是utf-8编码。
2016-03-01