为了账号安全,请及时绑定邮箱和手机立即绑定

用python爬取图片URL存放在set里,为什么会有重复的?

用python爬取图片URL存放在set里,为什么会有重复的?

希希同学 2017-12-27 09:12:27
import urllib2 import re req = urllib2.urlopen('https://www.imooc.com/course/list') listurl = re.findall(r'//img.+\.jpg', req.read()) fullurls = set() for url in listurl: fullurl = 'https:' + url fullurls.add(fullurl) print fullurls
查看完整描述

2 回答

?
产品经理不是经理

TA贡献481条经验 获得超143个赞

你确定两个url的内容完全是一致的吗?

查看完整回答
反对 回复 2017-12-27
  • 希希同学
    希希同学
    是的,html里有两个相同的url, 两个相同的url是存放在set的同一个元素里,应该是正则出错了,但不知道怎么改
  • 2 回答
  • 0 关注
  • 1720 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信