为了账号安全,请及时绑定邮箱和手机立即绑定

运行结果没有问题 文件写入正常 就是词条的内容乱码

594693d70001faa006400360.jpg
594693dd0001cdad06400360.jpg
594693e2000101a806400360.jpg
594693e500019c5a06400360.jpg
594693e900012cb106400360.jpg
594693ed0001871712290346.jpg
594693f20001cfc212330607.jpg
弄了很久了 还没找到解决方法 求解

正在回答

3 回答

  1. 如果是URL部分乱码/item/%E7%BC%96%,是因为url采用了再编码-->16进制编码

    解决方法:调用urllib.parse.unquote("/item/%E7%BC%96%")来变回中文

    注意:变回中文的URL无法用urllib.request.urlopen(URL)来访问,可以在最后输出html的时候变回中文

  2. 输出的html分url,title,data三列,title和data出现\x96\x12\x34(unicode编码)

    原因:因为先用encoding='utf-8'新建html文件,然后又fout.write("<td>%s</td>" % data['title'].encode('utf-8))又编码成unicode

    解决方法:直接fout.write("<td>%s</td>" % data['title'])

  3. 附源代码,可对比学习

  4. http://img1.sycdn.imooc.com//594826c800016b7f07200824.jpg

  5. http://img1.sycdn.imooc.com//594826b90001d85c07270726.jpg

  6. http://img1.sycdn.imooc.com//594826e300012d0d07270442.jpg

  7. http://img1.sycdn.imooc.com//594826f600015dbe07260998.jpg

  8. http://img1.sycdn.imooc.com//594827060001b0e507260748.jpg


4 回复 有任何疑惑可以回复我~
#1

丶coding 提问者

我之前就是这样弄的 因为html默认打开的方式是IE浏览器 打开后就乱码 换成记事本或者chrome打开就正常显示了 说白了 就是被IE浏览器坑了
2017-06-20 回复 有任何疑惑可以回复我~
#2

小蟒蛇

谢谢,解决了我很多编码方面的问题,不用头大了
2017-11-17 回复 有任何疑惑可以回复我~

#<a target="_blank" href="/item/%E8%83%B6%E6%B0%B4%E8%AF%AD%E8%A8%80">胶水语言</a>

links = soup.find_all('a', href = re.compile(r'^/item/[\W\w]+'))

 求教正则匹配这儿应该怎么写呢?我的正则匹配不出来东西么!!!

0 回复 有任何疑惑可以回复我~

没有指定编码格式?课程中不是说了要加上coding=utf-8

0 回复 有任何疑惑可以回复我~
#1

丶coding 提问者

指定了。。。
2017-06-18 回复 有任何疑惑可以回复我~
#2

丶coding 提问者

没用。。。写入文件的乱码和那个无关
2017-06-19 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

运行结果没有问题 文件写入正常 就是词条的内容乱码

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信