
本教程详细介绍了如何使用pandas库结合正则表达式,从包含混合类型数据的dataframe列中高效地提取和识别特定文本模式。文章将通过实际代码示例,演示如何利用`str.extract()`函数构建复杂的正则表达式,以处理列中的多样化条目,并对提取结果进行进一步处理,从而实现数据清洗和模式识别的目标。
在数据分析和处理过程中,我们经常会遇到DataFrame中某些列包含混合数据类型或复杂字符串的情况。例如,一个列可能同时包含纯数字、文本标识符以及由多种信息组合而成的字符串。从这类列中准确地提取出我们感兴趣的特定模式,是数据预处理的关键步骤。Pandas库结合Python强大的正则表达式功能,提供了高效且灵活的解决方案。
首先,我们需要导入必要的库并加载数据。本教程以从Excel文件读取数据为例,演示如何将数据导入Pandas DataFrame。
import pandas as pd
import numpy as np # 虽然示例中未使用,但通常与Pandas一起使用
# 定义Excel文件路径
excel_file_path = 'F:\Google Drive\Matthias\Arbeit\ISQM\08 - Tool Menü - Skripte DD 19.12.2023\Testskripte\value_cnts_2.xlsx'
# 使用pd.read_excel直接加载数据
# sheet_name参数可以指定要读取的工作表,默认为第一个
try:
df = pd.read_excel(excel_file_path, sheet_name=0)
print("DataFrame加载成功,前5行数据:")
print(df.head())
except FileNotFoundError:
print(f"错误:文件未找到,请检查路径: {excel_file_path}")
except Exception as e:
print(f"加载Excel文件时发生错误: {e}")
# 假设我们关注的列是 'Nachfolger'
# 打印该列的一些信息,以便了解数据概况
print("
'Nachfolger' 列数据概况:")
print(df['Nachfolger'].value_counts(dropna=False))在实际应用中,df['Nachfolger'] 列可能包含如 "54;20", "----", "52;128AA;207;22;223", "138EE;34" 等多种形式的字符串。我们的目标是从这些字符串中识别并提取出 "EE", "AA", "EA+", "EA-" 等特定模式。
Pandas Series对象提供了一系列字符串方法,其中 str.extract() 是用于通过正则表达式从字符串中提取模式的强大工具。
当正则表达式包含捕获组(用括号 () 包裹的部分)时,str.extract() 会为每个捕获组创建一个新的列来存储匹配到的内容。如果某个字符串没有匹配到模式,则对应位置会填充 NaN。
为了从混合数据列中提取多个不同的模式,我们可以使用正则表达式的“或”运算符 | 来组合多个模式。
假设我们想要提取 "EE", "AA", "EA+", "EA-" 这四种模式。
将它们组合起来,我们可以构建如下的正则表达式:(EE|EA[+-]|AA)。
现在,我们将其应用于DataFrame:
# 提取 'EE', 'EA+', 'EA-', 'AA' 模式
# str.extract会为每个匹配项创建一个新的列
df['Verknüpfung_模式'] = df['Nachfolger'].str.extract(r'(EE|EA[+-]|AA)', expand=False)
# 打印提取后的DataFrame,并关注新增的列
print("
提取模式后的DataFrame:")
print(df[['Nachfolger', 'Verknüpfung_模式']].head(40))
# 统计提取到的模式及其频次
print("
提取模式的频次统计:")
print(df['Verknüpfung_模式'].value_counts(dropna=False))代码解释:
str.extract() 在没有匹配到模式时会返回 NaN。根据需求,我们可能需要对这些 NaN 值进行处理,例如填充默认值或进行计数。
填充缺失值:
如果希望将未匹配的 NaN 值替换为其他标识(例如 0 或空字符串),可以使用 fillna() 方法。
# 将未匹配的NaN值填充为 '无匹配'
df['Verknüpfung_模式_填充'] = df['Verknüpfung_模式'].fillna('无匹配')
print("
填充NaN值后的模式列:")
print(df[['Nachfolger', 'Verknüpfung_模式_填充']].head(40))
# 统计填充后的模式
print("
填充后模式的频次统计:")
print(df['Verknüpfung_模式_填充'].value_counts())计数匹配项:
如果目标是统计每种模式出现的次数,可以直接对提取后的列使用 value_counts()。如果需要计算非 NaN 的匹配总数,可以先删除 NaN 值再计数。
# 计算每种成功匹配的模式的数量
successful_matches_counts = df['Verknüpfung_模式'].dropna().value_counts()
print("
成功匹配模式的计数:")
print(successful_matches_counts)
# 如果需要计算总共有多少行包含至少一个匹配模式
total_rows_with_match = df['Verknüpfung_模式'].notna().sum()
print(f"
总共有 {total_rows_with_match} 行包含至少一个匹配模式。")下面是一个整合了上述步骤的完整代码示例,展示了从加载数据到最终提取和处理模式的全过程。
import pandas as pd
import numpy as np
# 1. 定义Excel文件路径
excel_file_path = 'F:\Google Drive\Matthias\Arbeit\ISQM\08 - Tool Menü - Skripte DD 19.12.2023\Testskripte\value_cnts_2.xlsx'
# 2. 加载Excel数据到DataFrame
try:
df = pd.read_excel(excel_file_path, sheet_name=0)
print("DataFrame加载成功。")
except FileNotFoundError:
print(f"错误:文件未找到,请检查路径: {excel_file_path}")
exit() # 如果文件未找到,退出程序
except Exception as e:
print(f"加载Excel文件时发生错误: {e}")
exit()
# 3. 定义正则表达式模式
# 匹配 'EE', 'EA+', 'EA-', 'AA'
regex_pattern = r'(EE|EA[+-]|AA)'
# 4. 使用 str.extract() 提取模式
# expand=False 在只有一个捕获组时返回Series
df['Verknüpfung_提取模式'] = df['Nachfolger'].str.extract(regex_pattern, expand=False)
# 5. 处理提取结果:填充NaN值
# 将未匹配的模式填充为 '无匹配',以便于后续统计
df['Verknüpfung_最终模式'] = df['Verknüpfung_提取模式'].fillna('无匹配')
# 6. 打印部分结果和统计信息
print("
--- 提取和处理后的DataFrame(部分)---")
print(df[['Nachfolger', 'Verknüpfung_提取模式', 'Verknüpfung_最终模式']].head(40))
print("
--- 提取模式的频次统计 ---")
# 统计最终模式列中每种模式的出现次数
print(df['Verknüpfung_最终模式'].value_counts())
print("
--- 成功匹配模式的独立计数 ---")
# 仅统计成功匹配的模式(不包括 '无匹配')
print(df['Verknüpfung_提取模式'].dropna().value_counts())
print(f"
总行数: {len(df)}")
print(f"包含匹配模式的行数: {df['Verknüpfung_提取模式'].notna().sum()}")
print(f"不包含匹配模式的行数: {df['Verknüpfung_提取模式'].isna().sum()}")通过本教程,我们学习了如何利用Pandas的 str.extract() 方法结合正则表达式,从DataFrame的混合数据列中高效地识别和提取特定模式。掌握这一技术对于数据清洗、特征工程以及从非结构化文本中提取有价值信息至关重要。正确构建正则表达式并理解 str.extract() 的工作原理,将大大提升你在Pandas中处理复杂字符串数据的能力。
以上就是Pandas DataFrame混合数据列的正则表达式模式提取教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号