运行结果没有问题 文件写入正常 就是词条的内容乱码
弄了很久了 还没找到解决方法 求解
弄了很久了 还没找到解决方法 求解
2017-06-18
如果是URL部分乱码/item/%E7%BC%96%,是因为url采用了再编码-->16进制编码
解决方法:调用urllib.parse.unquote("/item/%E7%BC%96%")来变回中文
注意:变回中文的URL无法用urllib.request.urlopen(URL)来访问,可以在最后输出html的时候变回中文
输出的html分url,title,data三列,title和data出现\x96\x12\x34(unicode编码)
原因:因为先用encoding='utf-8'新建html文件,然后又fout.write("<td>%s</td>" % data['title'].encode('utf-8))又编码成unicode
解决方法:直接fout.write("<td>%s</td>" % data['title'])
附源代码,可对比学习
举报