Pandas DataFrame混合数据列的正则表达式模式提取教程

心靈之曲
发布: 2025-11-27 14:17:02
原创
501人浏览过

Pandas DataFrame混合数据列的正则表达式模式提取教程

本教程详细介绍了如何使用pandas库结合正则表达式,从包含混合类型数据的dataframe列中高效地提取和识别特定文本模式。文章将通过实际代码示例,演示如何利用`str.extract()`函数构建复杂的正则表达式,以处理列中的多样化条目,并对提取结果进行进一步处理,从而实现数据清洗和模式识别的目标。

在数据分析和处理过程中,我们经常会遇到DataFrame中某些列包含混合数据类型或复杂字符串的情况。例如,一个列可能同时包含纯数字、文本标识符以及由多种信息组合而成的字符串。从这类列中准确地提取出我们感兴趣的特定模式,是数据预处理的关键步骤。Pandas库结合Python强大的正则表达式功能,提供了高效且灵活的解决方案。

1. 环境准备与数据加载

首先,我们需要导入必要的库并加载数据。本教程以从Excel文件读取数据为例,演示如何将数据导入Pandas DataFrame。

import pandas as pd
import numpy as np # 虽然示例中未使用,但通常与Pandas一起使用

# 定义Excel文件路径
excel_file_path = 'F:\Google Drive\Matthias\Arbeit\ISQM\08 - Tool Menü - Skripte DD 19.12.2023\Testskripte\value_cnts_2.xlsx'

# 使用pd.read_excel直接加载数据
# sheet_name参数可以指定要读取的工作表,默认为第一个
try:
    df = pd.read_excel(excel_file_path, sheet_name=0)
    print("DataFrame加载成功,前5行数据:")
    print(df.head())
except FileNotFoundError:
    print(f"错误:文件未找到,请检查路径: {excel_file_path}")
except Exception as e:
    print(f"加载Excel文件时发生错误: {e}")

# 假设我们关注的列是 'Nachfolger'
# 打印该列的一些信息,以便了解数据概况
print("
'Nachfolger' 列数据概况:")
print(df['Nachfolger'].value_counts(dropna=False))
登录后复制

在实际应用中,df['Nachfolger'] 列可能包含如 "54;20", "----", "52;128AA;207;22;223", "138EE;34" 等多种形式的字符串。我们的目标是从这些字符串中识别并提取出 "EE", "AA", "EA+", "EA-" 等特定模式。

2. 理解 str.extract() 函数

Pandas Series对象提供了一系列字符串方法,其中 str.extract() 是用于通过正则表达式从字符串中提取模式的强大工具

  • 基本用法: Series.str.extract(pat, expand=True)
    • pat: 要匹配的正则表达式模式。
    • expand: 如果为 True (默认值),则返回一个DataFrame,其中每列对应于正则表达式中的一个捕获组。如果为 False,则返回一个Series (如果只有一个捕获组) 或一个DataFrame (如果多个捕获组)。

当正则表达式包含捕获组(用括号 () 包裹的部分)时,str.extract() 会为每个捕获组创建一个新的列来存储匹配到的内容。如果某个字符串没有匹配到模式,则对应位置会填充 NaN。

3. 构建正则表达式进行模式提取

为了从混合数据列中提取多个不同的模式,我们可以使用正则表达式的“或”运算符 | 来组合多个模式。

假设我们想要提取 "EE", "AA", "EA+", "EA-" 这四种模式。

  • "EE" 和 "AA" 是直接的字符串匹配。
  • "EA+" 和 "EA-" 可以用 EA[+-] 来表示,其中 [+-] 匹配字符 + 或 -。

将它们组合起来,我们可以构建如下的正则表达式:(EE|EA[+-]|AA)。

现在,我们将其应用于DataFrame:

MarsX
MarsX

AI驱动快速构建App,低代码无代码开发,改变软件开发的游戏规则

MarsX 159
查看详情 MarsX
# 提取 'EE', 'EA+', 'EA-', 'AA' 模式
# str.extract会为每个匹配项创建一个新的列
df['Verknüpfung_模式'] = df['Nachfolger'].str.extract(r'(EE|EA[+-]|AA)', expand=False)

# 打印提取后的DataFrame,并关注新增的列
print("
提取模式后的DataFrame:")
print(df[['Nachfolger', 'Verknüpfung_模式']].head(40))

# 统计提取到的模式及其频次
print("
提取模式的频次统计:")
print(df['Verknüpfung_模式'].value_counts(dropna=False))
登录后复制

代码解释:

  • r'(EE|EA[+-]|AA)': r 前缀表示这是一个原始字符串,避免反斜杠的转义问题。括号 () 定义了一个捕获组,| 表示“或”逻辑,[+-] 匹配 + 或 -。
  • expand=False: 在只有一个捕获组时,返回一个Series,这通常更方便。如果模式中包含多个捕获组,即使 expand=False 也会返回DataFrame。在这个例子中,虽然有多个子模式,但它们都被包含在一个主捕获组内,所以会返回一个Series。

4. 处理提取结果

str.extract() 在没有匹配到模式时会返回 NaN。根据需求,我们可能需要对这些 NaN 值进行处理,例如填充默认值或进行计数。

填充缺失值:

如果希望将未匹配的 NaN 值替换为其他标识(例如 0 或空字符串),可以使用 fillna() 方法。

# 将未匹配的NaN值填充为 '无匹配'
df['Verknüpfung_模式_填充'] = df['Verknüpfung_模式'].fillna('无匹配')

print("
填充NaN值后的模式列:")
print(df[['Nachfolger', 'Verknüpfung_模式_填充']].head(40))

# 统计填充后的模式
print("
填充后模式的频次统计:")
print(df['Verknüpfung_模式_填充'].value_counts())
登录后复制

计数匹配项:

如果目标是统计每种模式出现的次数,可以直接对提取后的列使用 value_counts()。如果需要计算非 NaN 的匹配总数,可以先删除 NaN 值再计数。

# 计算每种成功匹配的模式的数量
successful_matches_counts = df['Verknüpfung_模式'].dropna().value_counts()
print("
成功匹配模式的计数:")
print(successful_matches_counts)

# 如果需要计算总共有多少行包含至少一个匹配模式
total_rows_with_match = df['Verknüpfung_模式'].notna().sum()
print(f"
总共有 {total_rows_with_match} 行包含至少一个匹配模式。")
登录后复制

5. 完整示例代码

下面是一个整合了上述步骤的完整代码示例,展示了从加载数据到最终提取和处理模式的全过程。

import pandas as pd
import numpy as np

# 1. 定义Excel文件路径
excel_file_path = 'F:\Google Drive\Matthias\Arbeit\ISQM\08 - Tool Menü - Skripte DD 19.12.2023\Testskripte\value_cnts_2.xlsx'

# 2. 加载Excel数据到DataFrame
try:
    df = pd.read_excel(excel_file_path, sheet_name=0)
    print("DataFrame加载成功。")
except FileNotFoundError:
    print(f"错误:文件未找到,请检查路径: {excel_file_path}")
    exit() # 如果文件未找到,退出程序
except Exception as e:
    print(f"加载Excel文件时发生错误: {e}")
    exit()

# 3. 定义正则表达式模式
# 匹配 'EE', 'EA+', 'EA-', 'AA'
regex_pattern = r'(EE|EA[+-]|AA)'

# 4. 使用 str.extract() 提取模式
# expand=False 在只有一个捕获组时返回Series
df['Verknüpfung_提取模式'] = df['Nachfolger'].str.extract(regex_pattern, expand=False)

# 5. 处理提取结果:填充NaN值
# 将未匹配的模式填充为 '无匹配',以便于后续统计
df['Verknüpfung_最终模式'] = df['Verknüpfung_提取模式'].fillna('无匹配')

# 6. 打印部分结果和统计信息
print("
--- 提取和处理后的DataFrame(部分)---")
print(df[['Nachfolger', 'Verknüpfung_提取模式', 'Verknüpfung_最终模式']].head(40))

print("
--- 提取模式的频次统计 ---")
# 统计最终模式列中每种模式的出现次数
print(df['Verknüpfung_最终模式'].value_counts())

print("
--- 成功匹配模式的独立计数 ---")
# 仅统计成功匹配的模式(不包括 '无匹配')
print(df['Verknüpfung_提取模式'].dropna().value_counts())

print(f"
总行数: {len(df)}")
print(f"包含匹配模式的行数: {df['Verknüpfung_提取模式'].notna().sum()}")
print(f"不包含匹配模式的行数: {df['Verknüpfung_提取模式'].isna().sum()}")
登录后复制

6. 注意事项与最佳实践

  • 正则表达式的精确性: 正则表达式是模式匹配的核心。确保你的正则表达式能够准确地捕捉到目标模式,同时避免误匹配。可以使用 Regex101 等在线工具进行测试和调试。
  • 处理 NaN 值: str.extract() 在没有匹配时会生成 NaN。根据后续分析需求,合理使用 fillna()、dropna() 或 notna() 来处理这些缺失值。
  • 性能考虑: 对于非常大的数据集,频繁地对字符串列执行复杂的正则表达式操作可能会影响性能。在处理前可以考虑对数据进行抽样或优化正则表达式。
  • str.contains() 与 str.extract() 的选择:
    • 如果你只需要检查一个字符串是否包含某个模式(返回布尔值),使用 str.contains() 更高效。
    • 如果你需要提取匹配到的具体内容,则 str.extract() 是正确的选择。
  • 命名捕获组: 在复杂的正则表达式中,可以使用命名捕获组 (?P<name>pattern)。这样 str.extract() 返回的DataFrame列名将直接使用你定义的名称,提高了代码的可读性。例如 df['Verknüpfung'] = df['Nachfolger'].str.extract(r'(?P<MyPattern>EE|EA[+-]|AA)')。

总结

通过本教程,我们学习了如何利用Pandas的 str.extract() 方法结合正则表达式,从DataFrame的混合数据列中高效地识别和提取特定模式。掌握这一技术对于数据清洗、特征工程以及从非结构化文本中提取有价值信息至关重要。正确构建正则表达式并理解 str.extract() 的工作原理,将大大提升你在Pandas中处理复杂字符串数据的能力。

以上就是Pandas DataFrame混合数据列的正则表达式模式提取教程的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号