python,windows10版本,输出的HTML乱码的同学,不需要在fout.write("<td>%s</td>"%data['title'])以及后面的summary中添加.encode(utf-8),只要fout = open('output.html','w',encoding='utf-8') 就行。感谢@明磊同学,具体的原理也可以参见@明磊的评论。
2016-03-07
最赞回答 / WHXSCNU
本人系统win7,Python3.5,按照百度上win10的做法:fileout = open('output.html', 'w', encoding='utf-8'),能显示中文
2016-03-07
fout.write("<td>%s</td>" % data["url"])
KeyError: 'url'
去掉url 的输出就正常
KeyError: 'url'
去掉url 的输出就正常
2016-03-06
可以自行下载插件,解压后拷贝到python安装目录中的lib目录下,打开cmd进入插件的目录,输入python setup.py install,即可安装。
2016-03-06
使用pip install beautifulsoup4 时出现:UnicodeDecodeError:'ascii' codec can't decode byte 0xce. 错误
2016-03-06
照着老师的来了一遍,发现开始第一个以后显示失败然后就没了。用eclipse一行行断点,打印,终于发现是parser里面new_urls=set()的问题了,把set()改成[]就能开始跑了。
2016-03-06
爬取页面:http://huanyouchen.github.io/demo/imooc/python-baidubaike-spider/baike_spider_output.html
代码:https://github.com/guihailiuli/imooc-practice/tree/master/python-baidubaike-spider
代码:https://github.com/guihailiuli/imooc-practice/tree/master/python-baidubaike-spider
2016-03-03