已解决430363个问题，去搜搜看，总会有你想问的

Python爬虫抓取当当网图片时，正则表达式没有匹配到链接地址

首页猿问 Python爬虫抓取当当网图片时，...

Python爬虫抓取当当网图片时，正则表达式没有匹配到链接地址

Python

大话西游666 2018-07-22 11:14:58

最近正在学Python爬虫，从最基础的学起，即用 urllib 和 re 这两个包学抓取。用教材（韦玮《精通Python网络爬虫》）第77页的方法爬京东的图片完全没问题，但想照猫画个虎，爬一下当当网儿童图书版块的图片，却怎么也行不通，用正则表达式做的 pattern，死活就是没有匹配到任何链接地址。当当网初始页面：http://category.dangdang.com/pg1-cp01.41.26.00.00.00.html求大神指正！

查看完整描述

1 回答

小怪兽爱吃肉

TA贡献1852条经验获得超1个赞

修改第4、5两行如下，貌似就解决问题了：

     s = str(urllib.request.urlopen(url).read().decode(encoding='gbk'))     
     p = re.compile("<img data-original='(.+?)'", re.S)

编码真的是个麻烦的问题，正则表达式也是，看来得多练习才行！

反对回复 2018-08-14

1 回答
0 关注
866 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

Python爬虫抓取当当网图片时，正则表达式没有匹配到链接地址

Python爬虫抓取当当网图片时，正则表达式没有匹配到链接地址

1 回答

添加回答