最近正在学Python爬虫,从最基础的学起,即用 urllib 和 re 这两个包学抓取。用教材(韦玮《精通Python网络爬虫》)第77页的方法爬京东的图片完全没问题,但想照猫画个虎,爬一下当当网儿童图书版块的图片,却怎么也行不通,用正则表达式做的 pattern,死活就是没有匹配到任何链接地址。当当网初始页面:http://category.dangdang.com/pg1-cp01.41.26.00.00.00.html求大神指正!
1 回答

小怪兽爱吃肉
TA贡献1852条经验 获得超1个赞
修改第4、5两行如下,貌似就解决问题了:
s = str(urllib.request.urlopen(url).read().decode(encoding='gbk')) p = re.compile("<img data-original='(.+?)'", re.S)
编码真的是个麻烦的问题,正则表达式也是,看来得多练习才行!
添加回答
举报
0/150
提交
取消