python的正则表达式的操作--re模块

PHP中文网
发布: 2017-06-20 16:54:09
原创
1989人浏览过

re模块

序言:

re模块用于对python的正则表达式的操作

'.'     默认匹配除
之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行
'^'     匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","
abc
eee",flags=re.MULTILINE)
'$'     匹配字符结尾,或e.search("foo$","bfoo
sdfsf",flags=re.MULTILINE).group()也可以
'*'     匹配*号前的字符0次或多次,re.findall("ab*","cabb3abcbbac")  结果为['abb', 'ab', 'a']
'+'     匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
'?'     匹配前一个字符1次或0次
'{m}'   匹配前一个字符m次
'{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
'|'     匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配,re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
'[a-z]' 匹配a到z任意一个字符
'[^()]' 匹配除()以外的任意一个字符
 
r' '    转义引号里的字符 针对字符  详情查看⑦
'A'    只从字符开头匹配,re.search("Aabc","alexabc") 是匹配不到的
'Z'    匹配字符结尾,同$
'd'    匹配数字0-9
'D'    匹配非数字
'w'    匹配[A-Za-z0-9]
'W'    匹配非[A-Za-z0-9]
's'    匹配空白字符、	、
、
 , re.search("s+","ab	c1
3").group() 结果 '	'
   
'(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city")
结果{'province': '3714', 'city': '81', 'birthday': '1993'}
re.IGNORECASE  忽略大小写 re.search('(A|s)red(s+|$)',i,re.IGNORECASE)
登录后复制

标志位即模式修正符,不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功能: 

# flags
I = IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # ignore case  匹配时忽略大小写
L = LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale   做本地化识别匹配
U = UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode locale       根据Unicode字符及解析字符
M = MULTILINE = sre_compile.SRE_FLAG_MULTILINE # make anchors look for newline   多行匹配
S = DOTALL = sre_compile.SRE_FLAG_DOTALL # make dot match newline      让.匹配包括换行符,即用了该模式修正后,"."匹配就可以匹配任意的字符了
X = VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments
登录后复制

 

python-正则表达式re模块详解
python-正则表达式re模块详解

python-正则表达式re模块详解

python-正则表达式re模块详解 285
查看详情 python-正则表达式re模块详解

贪婪模式、懒惰模式:

立即学习Python免费学习笔记(深入)”;

import re

result1 =  re.search("p.*y","abcdfphp435pythony_py")   # 贪婪模式
print(result1)
# <_sre.SRE_Match object; span=(5, 21), match='php435pythony_py'>

result2 =  re.search("p.*?y","abcdfphp435pythony_py")   # 懒惰模式
print(result2)
# <_sre.SRE_Match object; span=(5, 13), match='php435py'>
登录后复制

  

match:

从起始位置开始根据模型去字符串中匹配指定内容:

#match
import re                               

obj = re.match('d+', '123uua123sf')       #从第一个字符开始匹配一个到多个数字
print(obj)                                
#<_sre.SRE_Match object; span=(0, 3), match='123'>

if obj:                                   #如果有匹配到字符则执行,为空不执行
    print(obj.group())                    #打印匹配到的内容
#123
登录后复制

匹配ip地址:

import re

ip = '255.255.255.253'
result=re.match(r'^([1-9]?d|1dd|2[0-4]d|25[0-5]).([1-9]?d|1dd|2[0-4]d|25[0-5]).'
                r'([1-9]?d|1dd|2[0-4]d|25[0-5]).([1-9]?d|1dd|2[0-4]d|25[0-5])$',ip)
print(result)
# <_sre.SRE_Match object; span=(0, 15), match='255.255.255.253'>
登录后复制

 

search:

根据模型去字符串中匹配指定内容(不一定是最开始位置),匹配最前

#search
import  re
obj = re.search('d+', 'a123uu234asf')     #从数字开始匹配一个到多个数字
print(obj)
#<_sre.SRE_Match object; span=(1, 4), match='123'>

if obj:                                   #如果有匹配到字符则执行,为空不执行
    print(obj.group())                    #打印匹配到的内容
#123


import  re
obj = re.search('([^()]+)', 'sdds(a1fwewe2(3uusfdsf2)34as)f')     #匹配最里面()的内容
print(obj)
#<_sre.SRE_Match object; span=(13, 24), match='(3uusfdsf2)'>

if obj:                                   #如果有匹配到字符则执行,为空不执行
    print(obj.group())                    #打印匹配到的内容
#(3uusfdsf2)
登录后复制

 

group与groups的区别:

#group与groups的区别
import  re
a = "123abc456"
b = re.search("([0-9]*)([a-z]*)([0-9]*)", a)
print(b)
#<_sre.SRE_Match object; span=(0, 9), match='123abc456'>
print(b.group())
#123abc456
print(b.group(0))
#123abc456
print(b.group(1))
#123
print(b.group(2))
#abc
print(b.group(3))
#456
print(b.groups())
#('123', 'abc', '456')
登录后复制

 

findall:

上述两中方式均用于匹配单值,即:只能匹配字符串中的一个,如果想要匹配到字符串中所有符合条件的元素,则需要使用 findall;findall没有group用法

#findall
import  re
obj = re.findall('d+', 'a123uu234asf')     #匹配多个

if obj:                                   #如果有匹配到字符则执行,为空不执行
    print(obj)                             #生成的内容为列表
#['123', '234']
登录后复制

 

sub:

用于替换匹配的字符串(pattern, repl, string, count=0, flags=0)

#sub
import  re

content = "123abc456"
new_content = re.sub('d+', 'ABC', content)
print(new_content)
#ABCabcABC
登录后复制

 

split:

根据指定匹配进行分组(pattern, string, maxsplit=0, flags=0)

#split
import  re

content = "1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )"
new_content = re.split('*', content)       #用*进行分割,分割为列表
print(new_content)
#['1 - 2 ', ' ((60-30+1', '(9-2', '5/3+7/3', '99/4', '2998+10', '568/14))-(-4', '3)/(16-3', '2) )']

content = "'1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )'"
new_content = re.split('[+-*/]+', content)
# new_content = re.split('*', content, 1)
print(new_content)
#["'1 ", ' 2 ', ' ((60', '30', '1', '(9', '2', '5', '3', '7', '3', '99', '4', '2998', '10', '568', '14))',
#  '(', '4', '3)', '(16', '3', "2) )'"]

inpp = '1-2*((60-30 +(-40-5)*(9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2))'
inpp = re.sub('s*','',inpp)                #把空白字符去掉
print(inpp)
new_content = re.split('(([+-*/]?d+[+-*/]?d+){1})', inpp, 1)
print(new_content)
#['1-2*((60-30+', '-40-5', '*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2))']
登录后复制

 

补充r' ' 转义:

fdfdsfdsds
sfdsfds& @$
登录后复制
lzl.py

首先要清楚,程序读取文件里的字符时,添加到列表里面的是\

import re,sys
li = []
with open('lzl.txt','r',encoding="utf-8") as file:
    for line in file:
        li.append(line)
print(li)                   # 注意:文件中的单斜杠,读出来后会变成双斜杠
# ['fdfdsfds\fds
', 'sfdsfds& @$']
print(li[0])                # print打印的时候还是单斜杠
# fdfdsfdsds
登录后复制

r字符的意义,对字符进行转义做为字符出现:

import re,sys
li = []
with open('lzl.txt','r',encoding="utf-8") as file:
    for line in file:
        print(re.findall(r's\f', line))  #第一种方式匹配
        # print(re.findall('\\', line))  #第二种方式匹配
        li.append(line)
print(li)                   # 注意:文件中的单斜杠,读出来后会变成双斜杠
# ['s\f']
# []
# ['fdfdsfds\fds
', 'sfdsfds& @$']
登录后复制

补充:看完下面的代码你可能更懵了

import re
re.findall(r'\', line)  # 正则中只能这样写 不能写成 r'' 这样
print(r'\')            # 只能这样写 不能写成r'' 只能是双数
# \        结果
# 如果想值打印单个 写成如下
print('\')             # 只能是双数
#          结果
登录后复制

总结:文件中的单斜杠,读出到程序中时是双斜杠\,print打印出来是单斜杠;正则匹配文件但斜杠时,用r'\'双斜杠去匹配,或者不用r直接用'\\'四个斜杠去匹配

 

compile函数:

说明:

Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先使用re.compile()函数,将正则表达式的字符串形式编译为Pattern实例,
然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作
登录后复制

举一个简单的例子,在寻找一个字符串中所有的英文字符:

import re
pattern = re.compile('[a-zA-Z]')
result = pattern.findall('as3SiOPdj#@23awe')
print(result)
# ['a', 's', 'S', 'i', 'O', 'P', 'd', 'j', 'a', 'w', 'e']
登录后复制

匹配IP地址(255.255.255.255):  

import re

pattern = re.compile(r'^(([1-9]?d|1dd|2[0-4]d|25[0-5]).){3}([1-9]?d|1dd|2[0-4]d|25[0-5])$')
result = pattern.match('255.255.255.255')
print(result)
# <_sre.SRE_Match object; span=(0, 15), match='255.255.255.255'>
登录后复制

 

以上就是python的正则表达式的操作--re模块的详细内容,更多请关注php中文网其它相关文章!

相关标签:
python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号