Pandas数据清洗与分组聚合：标准化列名实现精确统计-Python教程-PHP中文网

Pandas数据清洗与分组聚合：标准化列名实现精确统计

心靈之曲

发布： 2025-08-08 11:46:32

原创

228人浏览过

pandas数据清洗与分组聚合：标准化列名实现精确统计

本教程将详细讲解如何在Pandas DataFrame中处理含有不规范命名的数据列，通过利用正则表达式和Pandas内置的字符串操作方法，有效清除多余字符、空格等干扰信息，实现列名的标准化。最终，我们将演示如何基于清洗后的数据进行精确的分组聚合操作，确保数据统计结果的准确性，从而解决因数据格式不一致导致的分组失败问题。

在数据分析和处理过程中，我们经常会遇到数据格式不一致的问题，尤其是在需要根据某一列进行分组聚合时。例如，一个“名称”列可能包含“Michael”、“Michael ()”、“Sarah - (0)”和“Sarah”等多种变体，尽管它们在语义上指向同一个实体，但由于字符差异，直接使用 groupby 函数会导致它们被视为不同的组，从而无法得到正确的聚合结果。

考虑以下原始数据示例：

Name	Fee
Michael	3
Michael ()	4
Sarah - (0)	5
Sarah	5

如果直接对 Name 列进行分组求和，结果将与原始数据相同，因为“Michael”和“Michael ()”被认为是两个不同的名称。我们期望的最终结果是：

Name	Fee
Michael	7
Sarah	10

要达到这一目标，关键在于在分组前对 Name 列进行标准化处理。

1. 数据清洗的核心原理：正则表达式与字符串操作

数据标准化的核心在于识别并移除名称中不必要的字符，如括号、连字符、数字以及多余的空格。正则表达式（Regular Expressions）是处理这类模式匹配和替换任务的强大工具。

我们将使用以下两个主要步骤来清洗字符串：

讯飞智作-讯飞配音

讯飞智作是一款集AI配音、虚拟人视频生成、PPT生成视频、虚拟人定制等多功能的AI音视频生产平台。已广泛应用于媒体、教育、短视频等领域。

查看详情

移除特殊字符和数字： 利用正则表达式 [^A-Za-z ]+ 来匹配所有非英文字母和非空格的字符。re.sub() 函数可以将这些匹配到的字符替换为空字符串。
- [^...] 表示匹配不在括号内的任何字符。
- A-Za-z 匹配所有大写和小写英文字母。
- ` ` 匹配空格。
- + 表示匹配一个或多个前一个字符（或字符集）。
- 因此，[^A-Za-z ]+ 匹配任何一个或多个连续的非字母非空格字符。
移除首尾空格： 字符串的 strip() 方法可以有效去除字符串开头和结尾的空白字符（包括空格、制表符、换行符等）。

下面是一个简单的Python示例，演示如何对单个字符串进行清洗：

import re

# 示例字符串
string1 = 'Sarah - (0)'
string2 = 'Michael ()'
string3 = '  Test Name  '

# 步骤1: 移除特殊字符和数字
clean_string1_step1 = re.sub(r'[^A-Za-z ]+', '', string1) # 结果: 'Sarah  '
clean_string2_step1 = re.sub(r'[^A-Za-z ]+', '', string2) # 结果: 'Michael '

print(f"'{string1}' 移除特殊字符后: '{clean_string1_step1}'")
print(f"'{string2}' 移除特殊字符后: '{clean_string2_step1}'")

# 步骤2: 移除首尾空格
final_clean_string1 = clean_string1_step1.strip() # 结果: 'Sarah'
final_clean_string2 = clean_string2_step1.strip() # 结果: 'Michael'
final_clean_string3 = re.sub(r'[^A-Za-z ]+', '', string3).strip() # 结果: 'Test Name'

print(f"'{clean_string1_step1}' 移除首尾空格后: '{final_clean_string1}'")
print(f"'{clean_string2_step1}' 移除首尾空格后: '{final_clean_string2}'")
print(f"'{string3}' 完整清洗后: '{final_clean_string3}'")

登录后复制

2. 将清洗逻辑应用于Pandas DataFrame并进行分组聚合

在Pandas中，我们不需要手动编写循环来遍历每一行并应用清洗函数。Pandas提供了高效的字符串方法 (.str 访问器)，可以直接对整列字符串进行操作，并且支持正则表达式。

以下是完整的解决方案代码：

import pandas as pd

# 1. 创建示例DataFrame
data = {
    'Name': ['Michael', 'Michael ()', 'Sarah - (0)', 'Sarah'],
    'Fee': [3, 4, 5, 5]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df.to_string(index=False))
print("\n" + "="*30 + "\n")

# 2. 清洗 'Name' 列
# 使用 .str.replace() 结合正则表达式移除特殊字符和数字
# 注意: regex=True 必须指定，表示使用正则表达式
df['Name'] = df['Name'].str.replace(r'[^A-Za-z ]+', '', regex=True)

# 使用 .str.strip() 移除首尾空格
df['Name'] = df['Name'].str.strip()

# 可选：将所有名称转换为小写，以确保大小写不敏感的分组（如果需要）
# df['Name'] = df['Name'].str.lower()

print("清洗'Name'列后的DataFrame:")
print(df.to_string(index=False))
print("\n" + "="*30 + "\n")

# 3. 进行分组聚合
# 现在 'Name' 列已经标准化，可以进行正确的groupby操作
df_grouped = df.groupby(['Name'])['Fee'].sum().reset_index()

print("分组聚合后的结果:")
print(df_grouped.to_string(index=False))

登录后复制

代码解释：

df['Name'].str.replace(r'[^A-Za-z ]+', '', regex=True): 这一行代码利用Pandas的字符串方法 .str.replace() 对 Name 列中的每个字符串应用正则表达式替换。regex=True 参数是必需的，它告诉Pandas第一个参数是一个正则表达式。
df['Name'].str.strip(): 紧接着，使用 .str.strip() 方法移除清洗后可能残留的首尾空格。
df.groupby(['Name'])['Fee'].sum().reset_index(): 在 Name 列被清洗和标准化之后，我们就可以安全地使用它进行 groupby 操作，并对 Fee 列进行求和。reset_index() 用于将 Name 列从索引转换回普通列。

3. 注意事项与总结

正则表达式的灵活性： 本教程使用的正则表达式 [^A-Za-z ]+ 是为了匹配并移除除英文字母和空格之外的所有字符。根据实际需求，你可以调整正则表达式来匹配或保留不同的字符。例如，如果你想保留数字，可以将正则表达式修改为 [^A-Za-z0-9 ]+。
数据类型： 确保你操作的列是字符串类型。如果不是，可能需要先使用 df['Column'].astype(str) 进行类型转换。
性能考量： 对于大型数据集，使用Pandas内置的 .str 访问器方法通常比使用 df.apply() 结合Python的 re 模块效率更高，因为 .str 方法是C语言实现的，经过优化。
清洗的全面性： 除了字符替换和空格移除，实际的数据清洗可能还包括大小写统一（如 str.lower()）、处理空值（fillna()）、去除重复项（drop_duplicates()）等。根据具体业务场景，可能需要组合多种清洗策略。

通过本教程，我们学习了如何利用正则表达式和Pandas强大的字符串处理能力，对数据列进行有效的标准化清洗，从而解决了因数据格式不一致导致的分组聚合问题。掌握这些技术对于进行准确的数据分析和报告至关重要。

以上就是Pandas数据清洗与分组聚合：标准化列名实现精确统计的详细内容，更多请关注php中文网其它相关文章！