为了账号安全,请及时绑定邮箱和手机立即绑定

我爬出来的链接后缀都是16进制和% ??

craw 790 : https://baike.baidu.com/item/%E5%88%86%E6%94%AF

craw 791 : https://baike.baidu.com/item/%E5%AE%9E%E9%99%85%E5%9B%BD%E6%B0%91%E6%94%B6%E5%85%A5

craw 792 : https://baike.baidu.com/item/1939%E5%B9%B4/10990429

craw 793 : https://baike.baidu.com/item/O%E8%AE%B0%E5%AE%9E%E5%BD%95

craw 794 :

https://baike.baidu.com/item/%E6%B3%A2%E5%A3%AB%E9%A1%BF


类似这样的

对么?


正在回答

4 回答

控制台要转换: print('craw%d : %s ' % ( count , urllib.parse.unquote(new_url) ))    #编码转换

流输出也要转换:fout.write( '<td>%s</td>' % urllib.parse.unquote( data['url'] ))

1 回复 有任何疑惑可以回复我~

这是汉字的url编码,可以调用quote()和unquote()互相转换

1 回复 有任何疑惑可以回复我~

问题+1

0 回复 有任何疑惑可以回复我~

解决了么,我也遇到了一样的问题

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

我爬出来的链接后缀都是16进制和% ??

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信