使用正则表达式进行页面提取
上节课我们学习了如何使用 BeautifulSoup 来解析页面,这节课我们来学习下如何使用正则来解析页面。
- 正则表达式的基本概念
- 正则表达式基本语法
- 正则表达式常用函数
通过学习正则表达式几个常用函数,可以根据需要对数据进行匹配筛选。
1. 正则表达式简介
在编写爬虫的过程中,我们需要解析网页的内容。那么作为文本解析利器的正则表达式当然可以运用到我们的爬虫开发中。其实页面解析过程无非是从海量的字符串中将我们所需要的数据匹配并剥离出来,所以在正式的爬虫开发中正则会经常被用到。
正则表达式是对字符串操作的逻辑公式。在提取网页的数据的时候,我们需要把源代码转换成字符串,然后通过正则表达式匹配想要的数据。
在我们开始使用正则表达式进行模式查找之前,我们需要先熟悉一下正则表达式里面的字符的基本含义,熟悉了它们之后,我们就可以很方便的书写一些正则表达式进行模式匹配了。
2. 正则表达式基本语法
正则表达式的字符和含义
模式 | 描述 |
---|---|
. | 匹配任意字符, 除了换行符 |
* | 匹配前一个字符0次或者多次 |
+ | 匹配前一个字符1次或者多次 |
? | 匹配前一个字符0次或者1次 |
^ | 匹配字符串开头 |
$ | 匹配字符串结尾 |
() | 匹配括号内的表达式,表示一个组 |
\s | 匹配空白字符 |
\S | 匹配任何空白字符 |
\d | 匹配数字,等于[0-9] |
\D | 匹配非数字,等于[^0-9] |
\w | 匹配字符数字,等于[A-Za-z0-9] |
\W | 匹配非字符数字,等于[^A-Za-z0-9] |
[] | 表示一组字符 |
3. 正则表达式的常用方法
我们开发爬虫使用的是 Python 语言,那么在 Python 中如何使用正则表达式呢?在 Python 中已经内置了正则表达式模块 re
,re
库是内置在 Python 中的,不需要我们进行安装,直接导入使用即可。
这里我们主要详细讲解一下 re
库中的几种常用方法。这几种方法也是会经常用在爬虫开发中的,只要掌握了这些种方法,基本上在爬虫开发中需要使用正则表达式的问题都可以解决。
3.1 re.findall
findall 方法是找到所有的符合规则的匹配内容,具体语法如下:
re.findall(pattern, string, flags=0)
来看个例子,找出所有的字符串中的数字:
import re # 导入正则
example = 'abc 33 bbb 3223 yehgst adsfe3 332' # 创建目标字符串
pattern = '\d+'
re.findall(pattern, example)
效果如下图所示:
3.2 re.search
re.search 扫描整个字符串,并返回第一个成功的匹配。具体语法如下:
re.search(pattern, string, flags=0)
来看个例子:
import re
example = "Python is the best language!"
re.search('\APython', example)
re.search('\AJava', example)
效果如下图所示:
3.3 re.match
如果 string 开始的 0 或者多个字符匹配到了正则表达式样式,就返回一个相应的匹配对象 。 如果没有匹配,就返回 None ;注意它跟零长度匹配是不同的。
re.match(pattern, string, flags=0)
实例:
import re
string = '5523 abc, cde 666623'
pattern = '(\d{4}) (\w{3})'
match = re.search(pattern, string)
match.group(1)
match.group(2)
match.groups()
效果如下:
3.4 re.split
用 pattern 分开 string 。 如果在 pattern 中捕获到括号,那么所有的组里的文字也会包含在列表里。如果 maxsplit 非零, 最多进行 maxsplit 次分隔, 剩下的字符全部返回到列表的最后一个元素
re.split(pattern, string)
实例:
import re
string = 'aaabbb 212 dxsxasxw fdexx:3453423.'
pattern = '\d+'
result = re.split(pattern, string)
print(result)
效果如下:
3.5 re.sub
返回通过使用 repl 替换在 string 最左边非重叠出现的 pattern 而获得的字符串。 如果样式没有找到,则不加改变地返回 string。 repl 可以是字符串或函数;如为字符串,则其中任何反斜杠转义序列都会被处理。 也就是说,\n 会被转换为一个换行符,\r 会被转换为一个回车附,依此类推。 未知的 ASCII 字符转义序列保留在未来使用,会被当作错误来处理。 其他未知转义序列例如 & 会保持原样。 向后引用像是 \6 会用样式中第 6 组所匹配到的子字符串来替换
re.sub(pattern, replace, string)
实例:
import re
string = 'abc 3d a52a33 adex f45 6'
pattern = '\s+'
replace = ''
new_string = re.sub(pattern, replace, string)
print(new_string)
例子如下:
3.6 re.subn
行为与 sub() 相同,但是返回一个元组 (字符串, 替换次数).
re.subn(pattern, replace, string)
实例:
import re
string = 'abc 3d a52a33 adex f45 6'
pattern = '\s+'
replace = ''
new_string = re.subn(pattern, replace, string)
print(new_string)
例子如下:
4. 小结
这一小节,我们学习了正则表达式的基本语法,以及通过多个例子展示了正则表达式的使用方法,正则表达式难有一点大, 同学们需要多加练习,才能牢固的掌握。