req = urllib2.urlopen('http://www.imooc.com/course/list')
buf = req.read()
listUrl = re.findall(r'src=.+\.jpg"', buf)
listUrl2 = []
for u in listUrl:
listUrl2.append(re.search(r'http:.+\.jpg', u).group())
i = 0
会得到两个图片地址,所以先得到src="",然后重新查找得到
buf = req.read()
listUrl = re.findall(r'src=.+\.jpg"', buf)
listUrl2 = []
for u in listUrl:
listUrl2.append(re.search(r'http:.+\.jpg', u).group())
i = 0
会得到两个图片地址,所以先得到src="",然后重新查找得到
2017-09-18
最新回答 / qq_LWQ_1
大爷的,没仔细看。match(pattern, string, flags=0) Try to apply the pattern at the start of the string, returning a match object, or None if no match was found.意思是必须以符合规则的为开头
2017-09-17
应该改成[a-zA-Z0-9]{6}@163\.com。
如果“.”前面没有加"\",那“.”就是匹配任意一个字符。
如果“.”前面没有加"\",那“.”就是匹配任意一个字符。
2017-09-11
https://github.com/guyunzh/crawler_imooc_jpg
我增加了几个功能,老师爬取的只是一个页面的图片,我的可以自己在想创建的地方保存图片,切可以保存多个页面的图片,手动输入想要爬取的页面个数,就可以自动创建对应的文件夹来保存对应的页面图片,还可以去重。
仍有很多完善的地方,但是,毕竟自己会爬取了
感觉好的点个star,谢谢哈
我增加了几个功能,老师爬取的只是一个页面的图片,我的可以自己在想创建的地方保存图片,切可以保存多个页面的图片,手动输入想要爬取的页面个数,就可以自动创建对应的文件夹来保存对应的页面图片,还可以去重。
仍有很多完善的地方,但是,毕竟自己会爬取了
感觉好的点个star,谢谢哈
2017-09-11
已采纳回答 / Poison丶刺心
[1-9]?[0-9]:这个里面是两个部分[1-9]?和[0-9]第一部分:是匹配1到9之间的数字出现0次或1次第二部分:是匹配0到9之间的数字至少出现一次所以匹配‘09’这个字符串的时候,第一部分中不包含‘0’这个字符串,暂时的匹配结果为‘’(即空字符串),所以执行第二部分,第二部分包含‘0’,暂时的匹配结果为‘0’,匹配结束,输出结果‘0’
2017-09-10
\<number> 是之前分组()的内容,?p<name>和?p=name 和\<number>的目的是一样的,对之前分组的一个引用,不过当有多个分组时 可以用?p<name>标记。引用,更方便
2017-09-06
re模块中有 compile match等功能函数 可用 dir(re)查看re的所有属性。s=re.compile(r'***')定义一种匹配字符串规则,s指向。y=s.match(' '),用match函数匹配s规则的字符串,并返回结果。dir(y),查看属性,y.group()输出匹配结果。谢谢老师,讲的很好,希望没理解错。
2017-09-06