为了账号安全,请及时绑定邮箱和手机立即绑定

Python爬虫抓取当当网图片时,正则表达式没有匹配到链接地址

Python爬虫抓取当当网图片时,正则表达式没有匹配到链接地址

大话西游666 2018-07-22 11:14:58
最近正在学Python爬虫,从最基础的学起,即用 urllib 和 re 这两个包学抓取。用教材(韦玮《精通Python网络爬虫》)第77页的方法爬京东的图片完全没问题,但想照猫画个虎,爬一下当当网儿童图书版块的图片,却怎么也行不通,用正则表达式做的 pattern,死活就是没有匹配到任何链接地址。当当网初始页面:http://category.dangdang.com/pg1-cp01.41.26.00.00.00.html求大神指正!
查看完整描述

1 回答

?
小怪兽爱吃肉

TA贡献1852条经验 获得超1个赞

修改第4、5两行如下,貌似就解决问题了:

     s = str(urllib.request.urlopen(url).read().decode(encoding='gbk'))     
     p = re.compile("<img data-original='(.+?)'", re.S)

编码真的是个麻烦的问题,正则表达式也是,看来得多练习才行!


查看完整回答
反对 回复 2018-08-14
  • 1 回答
  • 0 关注
  • 757 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号