fout.write("<td>%s</td>" % data["url"])
KeyError: 'url'
去掉url 的输出就正常
KeyError: 'url'
去掉url 的输出就正常
2016-03-06
可以自行下载插件,解压后拷贝到python安装目录中的lib目录下,打开cmd进入插件的目录,输入python setup.py install,即可安装。
2016-03-06
使用pip install beautifulsoup4 时出现:UnicodeDecodeError:'ascii' codec can't decode byte 0xce. 错误
2016-03-06
照着老师的来了一遍,发现开始第一个以后显示失败然后就没了。用eclipse一行行断点,打印,终于发现是parser里面new_urls=set()的问题了,把set()改成[]就能开始跑了。
2016-03-06
爬取页面:http://huanyouchen.github.io/demo/imooc/python-baidubaike-spider/baike_spider_output.html
代码:https://github.com/guihailiuli/imooc-practice/tree/master/python-baidubaike-spider
代码:https://github.com/guihailiuli/imooc-practice/tree/master/python-baidubaike-spider
2016-03-03
报错的同学看这里,如果是html_outputer.py的20行附近报错
在html_outputer.py的20行附近,data['summary']也要加.encode('utf-8')
原理是:百度百科实际的编码是GB2312,但是呢,直接用GB2312也会报错。。。。不用UTF-8也会报错。。。
所以全部统一用UTF-8,最终打开结果的时候,用IE打开,编码手动选一下,就全部正常了。
话说我也才学了一星期。。。有地方说错见谅
在html_outputer.py的20行附近,data['summary']也要加.encode('utf-8')
原理是:百度百科实际的编码是GB2312,但是呢,直接用GB2312也会报错。。。。不用UTF-8也会报错。。。
所以全部统一用UTF-8,最终打开结果的时候,用IE打开,编码手动选一下,就全部正常了。
话说我也才学了一星期。。。有地方说错见谅
2016-03-03