首页手记换个角度理解正则表达式

换个角度理解正则表达式

标签：

Linux

　　其实Linux系统中处理文本的工具还有很多，功能也远比我们所能想象到的任何工具都要强大。要想真正掌握它们，就必须要掌握一项基本技能——正则表达式。

　　正则表达式已经无处不在了，无论是网络文章，还是很多图书，亦或是教材也都在讲解正则表达式，我们也坚信正在读本书的你也早已熟稔正则表达式的运用。但是，我们依然要介绍它，只是换了一个角度，以期望初学者能有一个好的开端，行家里手们能够加深入的理解它，因为要熟练使用Linux是离不开正则表达式。

　　对于初学者来讲，一定会追问到底什么是正则表达式。这是一个很难回答的问题。但是我们可以通过一个应用实例来让大家明白。一般地，我们在处理字符串的时候后有需要判断是否存在某个子串的情况，比如要在字符串“prefix=/usr”中来判断是否拥有“prefix=”这个字串，可以使用逐一比对的方式来完成这个功能。这看起来很好，而且屡试不爽。还能进一步演进算法，实现提取诸如“prefix”的“值”这样的需求。显然只需要判断字符串中有“prefix=”这个子串并确认它的位置就能够提取出“/usr”这个子串了。看来变量取值算法也是很“简单”的啊！但是别骄傲，当你遇到“exec-prefix=/libexec prefix=/usr”这样的字符串时，你怎么取“prefix”的值呢？你会说，稍微变化一下算法就行了。那遇到的字符串更复杂怎么办？对于这类需求，我们可以变换一下思路，即找到“K=V”这样形式的子串会更好。或许现在你觉得思路又开阔了。但是别着急，还有更复杂的在等着你。比如字符串“3.1416 100 ^ 2”，要提取出所有数字。似乎你又有思路了，无外乎提取连续的0至9，附带+、-号以及“.”的字串，但是这就能完成任务了？如果再变成“3.1416 1.3E2 ^ 2”这样了呢？反正变化很多。如果你要还是保持前面的思路，我保证你使用几十万行代码的if-else都满足不了需求。估计你现在一定会想，如果有一门语言只需要编写少量的代码就能够满足上面的所有需求的话，一定要学会它。这样你就不怕老板在这个地方的各种刁难。那我告诉你，还真有一门这样的语言，它就是——正则表达式。一些简单的正则表达式，就能够满足上面的这些需求，比如：

　　prefix=
　　[ \t]*[a-zA-Z]+=[ \t]*[a-zA-Z/]+[ \t]*
　　[+-]?[0-9]+(\.[0-9]*)?([Ee][+-]?[0-9]+)?

　　我们说上面的这些方方块块、花花草草就是正表达式了，它们具体都是什么含义呢？

　　为了搞清楚这个问题，我们首先要对正则表达式所要处理的文本进行一下精确定义。这个定义是：文本是指字符串的集合，其中的字符来自于一个有限的字符集合。也就是说，文本是由一个有限的字符集构成的，但是文本本身既可以是有穷集合，也可以是无穷集合。就比如属于文本的源代码文件，就是满足某种语言语法的全体字符串的集合，但是不同的源代码全部算在一起显然就是一个无穷的集合。当然，也可以有非常简单的文本，比如只含有一个字母“a”的文本，如果用集合了表示的话就是｛a｝。按照这个定义，正则表达式就是来描述任意文本的一种特殊表达式，而且拥有两个基本要素：

　　l表达式ε表示一个文本，仅包含一个长度为0的字符串，也可以理解为｛NULL｝。通常将NULL记作ε；

　　l对字符集中任意字符a，表达式a表示仅有一个字符a的文本，即｛a｝

　　以及三种基本运算规则：

　　l两个正则表达式的并，记作X|Y，表示的文本是正则表达式X所表示的文本与正则表达式Y所表示的文本的并集。比如a|b所得的文本就是{a，b}，类似于加法；

　　l两个正则表达式的连接，记作XY，表示的文本是将X文本中的每个字符串后面连接上Y文本中的每一个字符串之后，再把所有这种连接的结果组成一种新的文本。比如X=a|b，Y=c|d，那么XY所表示的文本就是｛ac，bc，ad，bd｝。因为X是｛a, b｝，而Y是｛c,d｝，连接运算取X文本的每个字符串接上Y文本的每一个字符串，最后得到了4种连接结果。这类似于乘法；

　　l一个正则表达式的克林闭包，记作X，表示分别将0个、1个、2个……n个X与自己连接，然后再把所有这些求并。也就是说X=ε|X|XX|XXX|……。比如a*这个正则表达式，就表示的是无穷文本｛ε，a，aa，aaa，……｝。这相当于任意次重复一个语言。

　　以上三种运算写在一起时，克林闭包的优先级高于连接运算，而连接运算的优先级高于并运算。这就是正则表达式的全部规则。完全不难理解吧？

　　在正则表达式的实际使用中，如果只是提供上述三种运算很多时候会使得正则表达式被书写的十分复杂，为了简化正则表达式又引入了一些扩展运算。这些扩展运算都是基于三种基本运算的，它们是：

　　l[]方括号表示括号内的字符做并运算，同时支持范围描述符“-”。比如[abcd]就等于a|b|c|d，等价于[a-d]。

　　l由于方括号中支持范围描述“-”，如果要使用“-”字符，则需要将它放在方括号的开头，如[-abc]等于-|a|b|c。

　　l方括号中以^字符开头，表示在字符集中排除方括号中的所有字符之后，所剩字符的并运算。比如[^ab]则表示除了ab以外的所有字符求并。

　　lX?表示X|ε。这就代表X与空字符串之间可选。

　　lX+表示XX*。这等于限制了X至少要重复1次。

　　现在我们就可以理解一下我们前面给出的这几个正则表达式了。

　　第一个正则表达式是“prefix=”，这就是一个连接运算，由“p”、“r”、“e”、“f”、“i”、“x”、“=”这几个字符连接而成。

　　第二个正则表达式则是提取出“K=V”这样形式的子串，取“=”号右侧子串就等同于取值了。而且限定了用空格来区分“K=V”结构的边界。[ \t]就是描述空格的正则表达式。

　　第三个正则表达式是提取数字，包含浮点数和科学计数法。比较困惑的是“（）”圆括号的出现。这是因为很多正则表达式工具默认都使用单一字符作为字串边界，为了扩大子串的边界，可以使用“（）”来明确限定，所以也被称为子表达式。但是这种子表达式并不属于标准正则表达式的范畴，所以会遇到不支持的情况。

　　好了，这部份的内容就算结束了，这是纯理论的，希望这些内容能够帮助到大家。本书的后续内容还会遇到一些有关正则表达式的内容，那些就更加偏重于实践了。本书之所以要这样组织，主要是考虑到正则表达式的派系过于繁杂，不同情况下所使用的工具对正则表达式派系的支持可能不太一样，只有遇到合适的场景才能更好的体会的这些差异来。其实接下来的内容就已经是这样的了。

　　本文转载自 Jagen在路上博客 http://blog.csdn.net/jiajun2001/article/details/12994839
　　转载时请务必以超链接形式标明文章原始出处、作者信息和本声明

点击查看更多内容