为了账号安全,请及时绑定邮箱和手机立即绑定

使用Python2的正则表达式中的Unicode类

使用Python2的正则表达式中的Unicode类

慕妹3146593 2021-03-18 14:08:04
是否有可能?这段代码在Python3中有效:In [1]: import reIn [2]: re.split(r'\W+', 'Les Misérables')Out[2]: ['Les', 'Misérables']但这在Python2中不起作用:In [1]: import reIn [2]: re.split(r'\W+', u'Les Misérables')Out[2]: [u'Les', u'Mis', u'rables']这也不起作用(在具有es_ES.UTF-8区域设置的Linux上测试):In [1]: import localeIn [2]: locale.setlocale(locale.LC_ALL, 'es_ES.UTF-8')Out[2]: 'es_ES.UTF-8'In [3]: import reIn [4]: re.split(ur'\W+', u'Les Misérables', re.U|re.L)Out[4]: [u'Les', u'Mis', u'rables']有什么方法可以让regex在Python2中使用Unicode ?
查看完整描述

1 回答

?
慕标琳琳

TA贡献1830条经验 获得超9个赞

您的错误是您在错误的位置添加了标记(标记应为第4个参数)。


>>> import re

>>> re.split(r'(?u)\W+', u'Les Misérables')

[u'Les', u'Mis\xe9rables']

>>> re.split(ur'\W+', u'Les Misérables', 0, re.U)

[u'Les', u'Mis\xe9rables']

为了避免这些问题,我建议使用内联标志((?u)如上)。


查看完整回答
反对 回复 2021-03-27
  • 1 回答
  • 0 关注
  • 146 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号