为了账号安全,请及时绑定邮箱和手机立即绑定

python正则表达式

难度初级
时长 1小时29分
学习人数
综合评分9.40
211人评价 查看评价
9.7 内容实用
9.4 简洁易懂
9.1 逻辑清晰
  • 课程编译环境: python 2.7

    简单爬取网页步骤:

            1)分析网页元素

            2)使用urllib2打开链接

            3)读取链接文本

            4)使用re匹配出期望文本内容并分条存入list

            5)创建文件定义文件名规则,并将list中的链接逐条用urllib2打开后写入

            

    查看全部
  • .      匹配除 "\n" 之外的任何单个字符。

    要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。

    [...]   匹配字符集[a-zA-Z0-9]

    \d    匹配一个数字字符。等价于 [0-9]。

    \D   匹配一个非数字字符。等价于 [^0-9]。

    \s    匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

    \S    匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

    \w   匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。

    \W   匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

    [0-9]       匹配任何数字。类似于 [0123456789]

    [a-z]       匹配任何小写字母

    [A-Z]      匹配任何大写字母

    [a-zA-Z0-9]  匹配任何字母及数字


    查看全部
  • sum([int(x) for x in info])
    可做到对list式求和


    查看全部
  • re—compile--pattern--match--result


    查看全部
  • pppppp

    查看全部
  • 钱钱钱钱钱钱从

    查看全部
  • 啊啊啊啊啊啊啊啊啊啊啊

    查看全部
  • 正则表达式
    查看全部
  • 抓网页, 抓图片地址, 抓图片内容并保存本地

    查看全部
  • 这个分割的功能挺好。

    查看全部
  • 这里没听懂

    查看全部
  • 正则表达式:import re

    \    转义字符

    .   匹配任意一个字符(处理\n)

    [...]  匹配字符集中的任何一个字符

    • \d/\D   匹配数字/非数字

    • \s/\S    匹配空白/非空白字符

    • \w/\W  匹配单词字符[a-zA-Z0-9]/非单词字符


    *   匹配前一个字符0次或者无限次

    +  匹配前一个字符1次或者无限次

    ? 匹配前一个字符0次或者1次

    {m}/{m,n}  匹配前一个字符m次或者n次

    *?/+???     匹配模式变为非贪婪(尽可能少匹配字符)

    ^     匹配字符串开头

    $     匹配字符串结尾  (在字符串的后边加$)

    \A/\Z     指定的字符串



    1:search(pattern,string,flags=0)    在一个字符串中查找匹配

    2:findall(pattern,string,flags=0)   找到匹配,返回所有匹配部分的列表

    3:sub(pattern,repl,string,count=0,flags=0)   将字符串中匹配正则表达式的部分替换为其他值

    4:split(pattern,string)       根据匹配分割字符串,返回分割字符串组成的列表

    查看全部
  • Urllib:

    Python3中将Python2.7的urllib和urllib2两个包合并成了一个urllib库,其主要包括以下模块:

    urllib.request   请求模块

            urllib.request.urlopen(url)

            from urllib import request

            request.urlopen()

    urlopen返回对象提供方法:

      read() , readline() ,readlines() , fileno() , close() :对HTTPResponse类型数据进行操作。

      info():返回HTTPMessage对象,表示远程服务器返回的头信息。

      getcode():返回Http状态码。

      geturl():返回请求的url。

    urllib.error      异常处理模块

    urllib.parse     url解析模块

    urllib.robotparser      robots.txt解析模块

    查看全部
  • search:在一个字符串中查找匹配

    findall:找到匹配,返回所有匹配部分的列表

    sub:将匹配出来的部分替换为其他值

    split:分割字符串,返回分割后的数组


    查看全部
  • | 匹配左右任意一个表达式

    (ab)括号中表达式作为一个分组

    \<number> 引用编号为num的分组匹配到的字符串

    (?P<name>)分组起一个别名

    (?P=name)引用别名为name的分组匹配字符串

    5bd1b91f0001fcb012800720.jpg

    查看全部

举报

0/150
提交
取消
课程须知
本课程是Python中级课程 1、本课程在linux讲解,最好有linux开发环境 1、熟练掌握Python开发语言基础语法
老师告诉你能学到什么?
1.正则表达式基本语法 2.使用re模块处理文本

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!