为了账号安全,请及时绑定邮箱和手机立即绑定

正则十八式-第二式:控鹤擒龙

少年,见你骨骼精奇,是百年一遇的练武奇才,你我又是有缘人,随为师修炼吧

接上篇: 正则十八式-第一式:直捣黄龙

藏扇仙:"徒儿,悟得如何?"

捷特:"已忘去一半。"

半小时后... 

藏扇仙:"现在呢?"

捷特:"已全部忘完。"

藏扇仙:"很好,现在为师教你:正则十八式-第二式:控鹤擒龙"

一、夹逼法则

1.贪婪模式(默认)

藏扇仙:现在要求,匹配到下面的书名。   

捷特:《.*》不就行了?   

藏扇仙:你但可一试。   

捷特: 怎么会这样?看来会默认尽可能多的匹配。 

藏扇仙:这就是贪婪模式。

https://img1.sycdn.imooc.com//5dde87c90001d72112800451.jpg
2.非贪婪模式

捷特:师傅,何解?   

藏扇仙:问号紧加限定尾,即非贪婪  

https://img1.sycdn.imooc.com//5dde892900015d8f06750254.jpg

捷特:师傅,这波稳,通过两个限定符进行夹逼 

藏扇仙:所以这招名为-控鹤擒龙

https://img1.sycdn.imooc.com//5dde89590001223d06830344.jpg


二、Java中的正则

藏扇仙:这是为师的看家法宝之一,Java加工机。 

捷特:早就听闻师傅用Java代码控制正则如行云流水,可谓天下无敌。 

藏扇仙:不止Java,凡是一门语言都和正则撇不开关系,否则就太挫了。现在教你提取信息。

https://img1.sycdn.imooc.com//5dde89a6000117ed06070290.jpg


1.字符流读取文件

为了使用方便,读取文件来解析,由于我们使用的是字符串,直接用FileReader来读即可

https://img1.sycdn.imooc.com//5dde89dd00014a6706820190.jpg

https://img1.sycdn.imooc.com//5dde8a12000159bb05900584.jpg


2.字符匹配,过滤擒龙

上面的黄色匹配部位都可以通过代码获取。Java通过PatternMatcher两类完成
下面这样就可以很轻松地获取文件中所有的书名,无论几十万行,几百万行,通行无阻

https://img1.sycdn.imooc.com//5dde8a330001756606810300.jpghttps://img1.sycdn.imooc.com//5dde8a740001ceac05870212.jpg


三、举一反三,控鹤擒龙

1.模板匹配

藏扇仙:现在定义一个语法模板${},要求提取所有符合要求的信息

https://img1.sycdn.imooc.com//5dde8a8f000121fc06810236.jpg

捷特:这还不简单,看我-控鹤擒龙

https://img1.sycdn.imooc.com//5dde8aae0001f19a05890204.jpg

https://img1.sycdn.imooc.com//5dde8af8000144d506780169.jpg


2.网页匹配

藏扇仙:听说你有不少关注者,分析一下页面,获取他们的名字
捷特:这有点意思,最重要的还是分析结构进行夹逼。(这懒加载滑得好累,滑出4000多个,够用了)

https://img1.sycdn.imooc.com//5dde8b3e000107d506730262.jpg

https://img1.sycdn.imooc.com//5dde8b5700010c6d06870339.jpg



https://img1.sycdn.imooc.com//5dde87ca0001141412800397.jpg

https://img1.sycdn.imooc.com//5dde8b910001557105890213.jpg

藏扇仙:这招控鹤擒龙,你可要多加练习,在提取信息时是非常有用的。   

捷特:我也感到了,非常好用,特别是像网页这样规则固定的字符串。下一招呢? 

藏扇仙:你先练着,为师歇会。下一招,正则十八式-第三式:龙跃于渊。


点击查看更多内容
1人点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消