使用Unicode处理正则表达式的教程及图解2020.2

2.10在正则式中使用Unicode问题

如果你想在模式中包含指定的Unicode字符,你可以使用Unicode字符对应的转义序列(比如uFFF或者UFFFF )。默认情况下re模块已经对一些Unicode字符类有了基本的支持。 比如, d已经匹配任意的unicode数字字符了:

import re
num = re.compile('d+')
# ASCII digits
num.match('123')
# Arabic digits
num.match('u0661u0662u0663')

下面是一个匹配几个不同阿拉伯编码页面中所有字符的正则表达式:

arabic = re.compile('[u0600-u06ffu0750-u077fu08a0-u08ff]+')
pdf 文件大小:4.84MB