python 正则表达式详解
python 正则表达式详解
1. 正则表达式模式
模式 | 描述 |
---|---|
^ | 匹配字符串的开头 |
$ | 匹配字符串的末尾。 |
. | 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。 |
[…] | 用来表示一组字符,单独列出:[amk] 匹配 \’a\’,\’m\’或\’k\’ |
[^…] | 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。 |
re* | 匹配0个或多个的表达式。 |
re+ | 匹配1个或多个的表达式。 |
re? | 匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式 |
re{ n} | 匹配n个前面表达式。例如,”o{2}”不能匹配”Bob”中的”o”,但是能匹配”food”中的两个o。 |
re{ n,} | 精确匹配n个前面表达式。例如,”o{2,}”不能匹配”Bob”中的”o”,但能匹配”foooood”中的所有o。”o{1,}”等价于”o+”。”o{0,}”则等价于”o*”。 |
re{ n, m} | 匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式 |
a| b | 匹配a或b |
(re) | 匹配括号内的表达式,也表示一个组 |
(?imx) | 正则表达式包含三种可选标志:i, m, 或 x 。只影响括号中的区域。 |
(?-imx) | 正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。 |
(?: re) | 类似 (…), 但是不表示一个组 |
(?imx: re) | 在括号中使用i, m, 或 x 可选标志 |
(?-imx: re) | 在括号中不使用i, m, 或 x 可选标志 |
(?#…) | 注释. |
(?= re) | 前向肯定界定符。如果所含正则表达式,以 … 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩余部分还要尝试界定符的右边。 |
(?! re) | 前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功。 |
(?> re) | 匹配的独立模式,省去回溯。 |
\w | 匹配数字字母下划线 |
\W | 匹配非数字字母下划线 |
\s | 匹配任意空白字符,等价于 [\t\n\r\f]。 |
\S | 匹配任意非空字符 |
\d | 匹配任意数字,等价于 [0-9]。 |
\D | 匹配任意非数字 |
\A | 匹配字符串开始 |
\Z | 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。 |
\z | 匹配字符串结束 |
\G | 匹配最后匹配完成的位置。 |
\b | 匹配一个单词边界,也就是指单词和空格间的位置。例如, \’er\b\’ 可以匹配”never” 中的 \’er\’,但不能匹配 “verb” 中的 \’er\’。 |
\B | 匹配非单词边界。\’er\B\’ 能匹配 “verb” 中的 \’er\’,但不能匹配 “never” 中的 \’er\’。 |
\n, \t, 等。 | 匹配一个换行符。匹配一个制表符, 等 |
\1…\9 | 匹配第n个分组的内容。 |
\10 | 匹配第n个分组的内容,如果它经匹配。否则指的是八进制字符码的表达式。 |
2. 正则表达式修饰符 – 可选标志
修饰符 | 描述 |
---|---|
re.I | 使匹配对大小写不敏感 |
re.L | 做本地化识别(locale-aware)匹配 |
re.M | 多行匹配,影响 ^ 和 $ |
re.S | 使 . 匹配包括换行在内的所有字符 |
re.U | 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B. |
re.X | 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。 |
3. 字符串的常用操作:一对一匹配
s1 = \'菜鸟程序员_Python\'
print(s1.find(\'程序员\'))
4. re.findall() 函数
(1): \w 匹配中文,字母,数字,下划线
import re
name = "菜鸟程序员-re.findall() 详解" print(re.findall("\w",name)) # [\'菜\', \'鸟\', \'程\', \'序\', \'员\', \'r\', \'e\', \'f\', \'i\', \'n\', \'d\', \'a\', \'l\', \'l\', \'详\', \'解\']
(2): \W 不匹配中文,字母,数字,下划线
import re
name = "菜鸟程序员-re.findall() 详解" print(re.findall("\W",name)) # [\'-\', \'.\', \'(\', \')\', \' \']
(3): \s 匹配任意的空白符
import re
name = "菜鸟程序员-re.findall() 详解" print(re.findall("\s",name)) # [\' \']
(4): \S 匹配不是任意的空白符
import re
name = "菜鸟程序员-re.findall() 详解" print(re.findall("\S",name)) # [\'菜\', \'鸟\', \'程\', \'序\', \'员\', \'-\', \'r\', \'e\', \'.\', \'f\', \'i\', \'n\', \'d\', \'a\', \'l\', \'l\', \'(\', \')\', \'详\', \'解\']
(5): \d 匹配数字
import re
name = "菜鸟程序员-re.findall() 详解 2020/03/09" print(re.findall("\d",name)) # [\'2\', \'0\', \'2\', \'0\', \'0\', \'3\', \'0\', \'9\']
(6): \D 匹配非数字
import re
name = "菜鸟程序员-re.findall() 详解 2020/03/09" print(re.findall("\D",name)) # [\'菜\', \'鸟\', \'程\', \'序\', \'员\', \'-\', \'r\', \'e\', \'.\', \'f\', \'i\', \'n\', \'d\', \'a\', \'l\', \'l\', \'(\', \')\', \' \', \'详\', \'解\', \' \', \'/\', \'/\']
(7): \A 与 ^ 从字符串开头匹配
import re
name = "菜鸟程序员-re.findall() 详解" print(re.findall("\A菜鸟程序员",name)) print(re.findall("^菜鸟程序员",name)) # [\'菜鸟程序员\'] # [\'菜鸟程序员\']
(8): \Z 与 \z 与 $ 字符串结尾匹配
字符串结束位置与则符合就匹配,否则不匹配,返回值是list
import re
name = "菜鸟程序员-re.findall() 详解" print(re.findall("详解\Z",name)) print(re.findall("详解\z",name)) print(re.findall("详解$",name)) # [\'详解\'] # [] # [\'详解\']
(9): . 匹配任意字符(换行符除外,re.DOTALL)
import re
name = "菜鸟程序员-re.findall() 详解 \r\n" print(re.findall(".",name)) print(re.findall(".",name,re.DOTALL)) # [\'菜\', \'鸟\', \'程\', \'序\', \'员\', \'-\', \'r\', \'e\', \'.\', \'f\', \'i\', \'n\', \'d\', \'a\', \'l\', \'l\', \'(\', \')\', \' \', \'详\', \'解\', \' \', \'\r\'] # [\'菜\', \'鸟\', \'程\', \'序\', \'员\', \'-\', \'r\', \'e\', \'.\', \'f\', \'i\', \'n\', \'d\', \'a\', \'l\', \'l\', \'(\', \')\', \' \', \'详\', \'解\', \' \', \'\r\', \'\n\']
(10): ? 匹配?前元素0个或1个
问号前面的一个字符可以是0次或1次,返回值是list
import re
name = "菜鸟程序员-re.findall() 详解 \r\n" print(re.findall("re?",name)) # [\'re\']
(11): ***** 匹配 * 前面元素0个或多个 [贪婪匹配]
星号前面的一个字符可以是0次或多次,返回值是list
import re
name = "re - python_re - python_re.findall()" print(re.findall("re*",name)) print(re.findall("python_re*",name)) # [\'re\', \'re\', \'re\'] # [\'python_re\', \'python_re\']
(12): + 匹配 +前面元素1个或多个 [贪婪匹配]
加号前面的一个字符可以是1次或多次,返回值是list
import re
name = "re - python_re - python_re.findall()" print(re.findall("re+",name)) print(re.findall("python_re+",name)) # [\'re\', \'re\', \'re\'] # [\'python_re\', \'python_re\']
(13): {n,m} 匹配n到m个元素
匹配前一个字符n-m次,返回值是list
import re
name = "re - python_re - python_re.findall()" print(re.findall("re{1}",name)) print(re.findall("re{1,2}",name)) print(re.findall("python{1,2}",name)) # [\'re\', \'re\', \'re\'] # [\'re\', \'re\', \'re\'] # [\'python\', \'python\']
(14): .* 任意内容0个或多个
import re
name = "re - python_re - python_re.findall()" print(re.findall(".*",name)) # [\'re - python_re - python_re.findall()\', \'\']
(15): **.*?** 任意内容0个或1个
import re
name = "re - python_re - python_re.findall()" print(re.findall("python.?re",name)) # .? 表示"一个"任意字符 print(re.findall("py.*?re",name)) # .*? 表示任意个任意内容 # [\'python_re\', \'python_re\'] # [\'python_re\', \'python_re\']
(16): [] 获取括号中的内容
import re
name = "菜鸟程序员_Python-re.findall() 详解 2020/03/09" print(re.findall("[0-9]",name)) # 匹配数字0-9 print(re.findall("[a-z]",name)) # [a-z]匹配小写字母a-z print(re.findall("A-z]",name)) # 是按照ascii码表位进行匹配的 print(re.findall("[a-zA-Z]",name)) # [a-zA-Z] 匹配字母不管大小写 print(re.findall("[^A-z]",name)) # [^A-z] 有上尖号就是取反,获取不是字母和特定的几个字符 print(re.findall("[-+*]",name)) # 如果想要匹配到-,就需要进行如下操作(将-号放到最前面) # [\'2\', \'0\', \'2\', \'0\', \'0\', \'3\', \'0\', \'9\'] # [\'y\', \'t\', \'h\', \'o\', \'n\', \'r\', \'e\', \'f\', \'i\', \'n\', \'d\', \'a\', \'l\', \'l\'] # [] # [\'P\', \'y\', \'t\', \'h\', \'o\', \'n\', \'r\', \'e\', \'f\', \'i\', \'n\', \'d\', \'a\', \'l\', \'l\'] # [\'菜\', \'鸟\', \'程\', \'序\', \'员\', \'-\', \'.\', \'(\', \')\', \' \', \'详\', \'解\', \' \', \'2\', \'0\', \'2\', \'0\', \'/\', \'0\', \'3\', \'/\', \'0\', \'9\'] # [\'-\']
(17): () 分组 定制一个匹配规则
import re
name = "菜鸟程序员_Python-re.findall() 详解 2020/03/09" print(re.findall("(.*?) 详解",name)) href = "<a href=\'https://www.cnblogs.com/xingxingnbsp/p/12420761.html\'>菜鸟程序员_Python</a>" print(re.findall("href=\'(.*?)\'",href)) # [\'菜鸟程序员_Python-re.findall()\'] # [\'https://www.cnblogs.com/xingxingnbsp/p/12420761.html\']
(18): | 匹配 左边或者右边,也可以理解成或
import re
name = "python-re&python-file&python-re.findall()" print(re.findall(\'python|re|python-re\', name)) print(re.findall(\'&(python|re)\',name)) print(re.findall(\'&(?:python|re)\',name)) # [\'python\', \'re\', \'python\', \'python\', \'re\'] # [\'python\', \'python\'] # [\'&python\', \'&python\']
5. re.match() 详解
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
函数语法:
re.match(pattern, string, flags=0)
参数说明:
pattern : 匹配的正则表达式
string : 要匹配的字符串。
flags : 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
匹配成功re.match方法返回一个匹配的对象,否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。group(num=0): 匹配的整个表达式的字符串,
group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups(): 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
(1) 实例一:
import re
href = \'https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基础教程\' print(re.match(\'https\', href).span()) # 在起始位置匹配 print(re.match(\'www\', href)) # 不在起始位置匹配 # (0, 5) # None
(2) 实例二:
import re
href = \'https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基础教程\' match_obj = re.match(r\'https://(.*)xingxingnbsp(.*?) .*\', href, re.M | re.I) if match_obj: print("match_obj.group() : ", match_obj.group()) print("match_obj.group(1) : ", match_obj.group(1)) print("match_obj.group(2) : ", match_obj.group(2)) else: print("No match!!") # match_obj.group() : https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基础教程 # match_obj.group(1) : www.cnblogs.com/ # match_obj.group(2) : /p/12420761.html
(3) 练习一:(完成手机号匹配)
import re
# 练习1:完成手机号匹配
# phone_number = input("请输入手机号:")
phone_number = "18582896123"
match_obj = re.match(r\'0?(13|14|15|16|17|18|19)[0-9]{9}\', phone_number)
if match_obj:
print(phone_number + ":手机号码正常")
else:
print(phone_number + ":手机号码异常")
(4) 练习二:(完成邮箱的匹配)
import re
# 练习2:完成邮箱的匹配
# mailbox = input("请输入邮箱号:")
mailbox = "123456789@qq.com"
match_obj = re.match(r\'\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}\', mailbox)
if match_obj:
print(mailbox + ":邮箱号码正常")
else:
print(mailbox + ":邮箱号码异常")
(5) 练习三:(完成网址的匹配)
import re
# 练习3:完成网址的匹配
# href = input("请输入URL地址:")
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html"
match_obj = re.match(r\'(http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?\', href)
if match_obj:
print(href + ":URL地址正常")
else:
print(href + ":URL地址异常")
6. re.search() 详解
re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法:
re.search(pattern, string, flags=0)
参数说明:
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
匹配成功re.search方法返回一个匹配的对象,否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
(1) 实例一:
import re
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html" print(re.search(\'cnblogs\', href).span()) # 不在起始位置匹配 print(re.search(\'xingxingnbsp\', href).span()) # 不在起始位置匹配 # (12, 19) # (24, 36)
(2) 实例二:
import re
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基础教程" search_obj = re.search(r\'https://(.*)xingxingnbsp(.*?) .*\', href, re.M | re.I) if search_obj: print("search_obj.group() : ", search_obj.group()) print("search_obj.group(1) : ", search_obj.group(1)) print("search_obj.group(2) : ", search_obj.group(2)) else: print("No search!!") # search_obj.group() : https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基础教程 # search_obj.group(1) : www.cnblogs.com/ # search_obj.group(2) : /p/12420761.html
(3) 练习一:(完成手机号匹配)
import re
# 练习1:完成手机号匹配
# phone_number = input("请输入手机号:")
phone_number = "18582896123"
search_obj = re.search(r\'0?(13|14|15|16|17|18|19)[0-9]{9}\', phone_number)
if search_obj:
print(phone_number + ":手机号码正常")
else:
print(phone_number + ":手机号码异常")
(4) 练习二:(完成邮箱的匹配)
import re
# 练习2:完成邮箱的匹配
# mailbox = input("请输入邮箱号:")
mailbox = "123456789@qq.com"
mailbox = "123456789@qq.com"
search_obj = re.match(r\'\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}\', mailbox)
if search_obj:
print(mailbox + ":邮箱号码正常")
else:
print(mailbox + ":邮箱号码异常")
(5) 练习三:(完成网址的匹配)
import re
# 练习3:完成网址的匹配
# href = input("请输入URL地址:")
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html"
search_obj = re.match(r\'(http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?\', href)
if search_obj:
print(href + ":URL地址正常")
else:
print(href + ":URL地址异常")
7. re.match与re.search的区别
re.match 只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回 None,
而 re.search 匹配整个字符串,直到找到一个匹配。
import re
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html"
match_obj = re.match(r\'xingxingnbsp\', href, re.M | re.I)
if match_obj:
print("match_obj.group() : ", match_obj.group())
else:
print("No match!!")
search_obj = re.search(r\'xingxingnbsp\', href, re.M | re.I)
if search_obj:
print("search_obj.group() : ", search_obj.group())
else:
print("No match!!")
8. 检索和替换
(1) sub()函数
Python 的re模块提供了re.sub用于替换字符串中的匹配项。
语法:
re.sub(pattern, repl, string, count=0, flags=0)
参数:
pattern : 正则中的模式字符串。
repl : 替换的字符串,也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式,数字形式。
前三个为必选参数,后两个为可选参数。
实例一:
import re
r=re.sub("A\w","Python","AbAbcAbcdAbcdeAbcdef") #替换匹配成功的指定位置字符串,并且返回替换次数,可以用两个变量分别接受
print(r) #返回替换后的字符串
# PythonPythoncPythoncdPythoncdePythoncdef
实例二:
import re
phone = "185-8289-1234 # 这是一个电话号码"
num = re.sub(r\'#.*$\', "", phone) # 将# 这是一个电话号码替换为\'\'
print("电话号码 : ", num)
num = re.sub(r\'\D\', "", phone) # 获取除了数字其他的字符并替换为\'\'
print("电话号码 : ", num)
# 电话号码 : 185-8289-1234
# 电话号码 : 18582891234
实例三:
import re
string = \'PHP是最好的开发语言,PHP就是一个普通开发语言,PHP牛逼。\'
print("替换之前的字符串:" + string)
print("替换之后的字符串:" + re.sub(\'PHP\', \'Python\', string))
# 替换之前的字符串:PHP是最好的开发语言,PHP就是一个普通开发语言,PHP牛逼。
# 替换之后的字符串:Python是最好的开发语言,Python就是一个普通开发语言,Python牛逼。
实例四:(当repl 为函数时)
import re
def double(matched):
value = int(matched.group(\'value\'))
return str(value * 2)
s = \'我的金币数为2000\'
print(re.sub(\'(?P<value>\d+)\', double, s))
# 我的金币数为4000
(2) subn()函数
替换匹配成功的指定位置字符串,并且返回替换次数,可以用两个变量分别接受
语法:
re.subn(pattern, repl, string, count=0, flags=0)
参数:
pattern : 正则中的模式字符串。
repl : 替换的字符串,也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式,数字形式。
前三个为必选参数,后两个为可选参数。
实例一:
import re a,b=re.subn("A\w","Python","AbAbcAbcdAbcdeAbcdef") #替换匹配成功的指定位置字符串,并且返回替换次数,可以用两个变量分别接受 print(a) #返回替换后的字符串 print(b) #返回替换次数 # PythonPythoncPythoncdPythoncdePythoncdef # 5
(3) compile 函数
compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
语法格式为:
re.compile(pattern[, flags])
参数:
pattern : 一个字符串形式的正则表达式
flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:
re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为\’ . \’并且包括换行符在内的任意字符(\’ . \’不包括换行符)
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性,忽略空格和\’ # \’后面的注释
实例一:
import re pattern = re.compile(r\'\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}\') str = \'123456789@qq.com\' m = pattern.search(str) print(m.group()) # 123456789@qq.com
实例二:
import re pattern = re.compile(r\'([a-z]+) ([a-z]+)\', re.I) # re.I 表示忽略大小写 m = pattern.match(\'Hello World Wide Web\') print(m) # 匹配成功,返回一个 Match 对象 print(m.group(0)) # 返回匹配成功的整个子串 print(m.span(0)) # 返回匹配成功的整个子串的索引 print(m.group(1)) # 返回第一个分组匹配成功的子串 print(m.span(1)) # 返回第一个分组匹配成功的子串的索引 print(m.group(2)) # 返回第二个分组匹配成功的子串 print(m.span(2)) # 返回第二个分组匹配成功的子串索引 print(m.groups()) # 等价于 (m.group(1), m.group(2), ...) print(m.group(3)) # 不存在第三个分组 """ <_sre.SRE_Match object; span=(0, 11), match=\'Hello World\'> Traceback (most recent call last): Hello World (0, 11) Hello (0, 5) World (6, 11) (\'Hello\', \'World\') File "D:/projects/学习项目目录/python相关/python 常用模块/python-re/5. 检索和替换.py", line 130, in <module> print(m.group(3)) # 不存在第三个分组 IndexError: no such group """
(4) split 函数
split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下:
re.split(pattern, string[, maxsplit=0, flags=0])
参数:
pattern 匹配的正则表达式
string 要匹配的字符串。
maxsplit 分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 – 可选标志
实例一:
import re string = "python,python2,python3" re_split = re.split("\W+",string) # 匹配非数字字母下划线 并分割字符串 python_split = string.split(\',\') # python自带的分割方法 print(re_split) print(python_split) # [\'python\', \'python2\', \'python3\'] # [\'python\', \'python2\', \'python3\']
实例二:
import re string = "python,python2,python3" re_split_1 = re.split("(\W+)",string) # 匹配非数字字母下划线 并分割字符串 re_split_2 = re.split(\'\W+\', string, 1) # 匹配非数字字母下划线 只分割一次 re_split_3 = re.split(\' \', string, 1) # 对于一个找不到匹配的字符串而言,split 不会对其作出分割 print(re_split_1) print(re_split_2) print(re_split_3) # [\'python\', \',\', \'python2\', \',\', \'python3\'] # [\'python\', \'python2,python3\'] # [\'python,python2,python3\']