
在数据分析过程中,我们经常需要对数据进行分组聚合(groupby)操作以获取统计信息。然而,当分组依据的列包含非标准化的文本数据时,例如同一实体却有多种表示形式(如“michael”、“michael ()”),直接进行groupby会导致错误的分组结果。这是因为pandas会将这些细微差异的字符串视为不同的值。为了解决这一问题,我们需要在分组前对文本数据进行预处理,使其标准化。
解决此类问题的关键在于识别并移除文本中不必要的字符,如括号、连字符、数字以及多余的空格。Python的re模块(正则表达式)和字符串的内置方法提供了强大的工具来实现这一点。
使用正则表达式移除特定字符:re.sub(pattern, repl, string)函数可以根据指定的pattern(正则表达式模式)在string中查找匹配项,并用repl(替换字符串)替换它们。 对于本例,我们的目标是只保留英文字母和空格。因此,可以使用模式[^A-Za-z ]+。
使用strip()方法移除首尾空格: 在通过正则表达式移除字符后,可能会留下字符串首尾的多余空格(例如,“ Sarah ”)。字符串的strip()方法可以有效地移除这些首尾的空白字符。
以下是针对单个字符串的清洗示例:
import re
# 示例字符串
string1 = 'Sarah - (0)'
string2 = 'Michael ()'
# 步骤1: 使用正则表达式移除符号和数字
clean_string1_step1 = re.sub(r'[^A-Za-z ]+', '', string1) # 结果: 'Sarah '
clean_string2_step1 = re.sub(r'[^A-Za-z ]+', '', string2) # 结果: 'Michael '
print(f"'{string1}' 经正则处理后: '{clean_string1_step1}'")
print(f"'{string2}' 经正则处理后: '{clean_string2_step1}'")
# 步骤2: 使用strip()移除首尾空格
final_string1 = clean_string1_step1.strip() # 结果: 'Sarah'
final_string2 = clean_string2_step1.strip() # 结果: 'Michael'
print(f"'{clean_string1_step1}' 经strip()处理后: '{final_string1}'")
print(f"'{clean_string2_step1}' 经strip()处理后: '{final_string2}'")在Pandas DataFrame中,我们需要将上述清洗逻辑封装成一个函数,然后使用.apply()方法将其应用于目标列。为了确保更彻底的标准化,我们还可以考虑将清洗后的字符串统一转换为小写或首字母大写,以避免大小写差异导致的分组问题(例如,“michael”和“Michael”)。
import pandas as pd
import re
# 原始DataFrame数据
data = {
'Name': ['Michael', 'Michael ()', 'Sarah - (0)', 'Sarah'],
'Fee': [3, 4, 5, 5]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)
# 定义清洗函数
def clean_name_for_groupby(name):
"""
清洗名称字符串,移除特殊字符和多余空格,并统一首字母大写。
"""
# 1. 使用正则表达式移除除字母和空格外的所有字符
cleaned_str = re.sub(r'[^A-Za-z ]+', '', name)
# 2. 移除首尾空格,并统一转换为首字母大写(例如:sarah -> Sarah)
return cleaned_str.strip().capitalize()
# 将清洗函数应用于 'Name' 列,创建一个新的清洗后的列
df['Cleaned_Name'] = df['Name'].apply(clean_name_for_groupby)
print("\n清洗后的DataFrame (新增 'Cleaned_Name' 列):")
print(df)
# 根据清洗后的 'Cleaned_Name' 列进行分组聚合
df_grouped = df.groupby('Cleaned_Name')['Fee'].sum().reset_index()
print("\n分组聚合结果:")
print(df_grouped)代码解释:
对文本数据进行标准化是数据清洗中不可或缺的一步,尤其在进行分组聚合操作时。通过结合使用Python的re模块和字符串的strip()等方法,我们可以高效地处理非标准化的文本数据,将其转换为统一的格式,从而确保后续数据分析的准确性和可靠性。掌握这些技巧将大大提升你在处理真实世界数据时的效率和数据质量。
以上就是Pandas数据清洗:标准化文本列以实现精准分组聚合的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号