i = 0
for line in url_list:
i += 1
with open(str(i)+".jpg","wb") as f:
try:
re = urllib.request.urlopen('https:'+line)
buf = re.read()
f.write(buf)
except urllib.request.URLError as e:
print(e.reason)
for line in url_list:
i += 1
with open(str(i)+".jpg","wb") as f:
try:
re = urllib.request.urlopen('https:'+line)
buf = re.read()
f.write(buf)
except urllib.request.URLError as e:
print(e.reason)
2017-06-08
刚爬了淘女郎第一页,很是激动:
url = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'
content = urllib.request.urlopen(url) .read().decode('gbk')
url_buf = re.findall(r'"//.*?"',C_html)
url_list = [re.search(r'//.*?\.(jpg|png)',line).group() for line in url_buf]
url = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'
content = urllib.request.urlopen(url) .read().decode('gbk')
url_buf = re.findall(r'"//.*?"',C_html)
url_list = [re.search(r'//.*?\.(jpg|png)',line).group() for line in url_buf]
2017-06-08
听到第二课就放弃了。。口音 逻辑 IDE都是硬伤= =
本来好激动,因为网上更多的是java的正则表达式,看到这个非常激动,以为有个系统的课程可以学python的正则表达式。。没想到是这个结果
还是听java的然后再在实验中找差别,慢慢积累吧
大家加油
本来好激动,因为网上更多的是java的正则表达式,看到这个非常激动,以为有个系统的课程可以学python的正则表达式。。没想到是这个结果
还是听java的然后再在实验中找差别,慢慢积累吧
大家加油
2017-05-22
最赞回答 / Sprint_RS
爬数据需要分析网页源码,你可以看看京东的图片到底是以什么形式写在网页里的,我敢肯定必然不是"http://.+\.jpg"这种形式。不一定是"http"打头,不一定是jpg格式,可能由js生成,各种情况都存在,你用这种方法抓不到图片很正常
2017-05-14