
在数据预处理阶段,我们经常需要对数值特征进行标准化,以消除量纲差异,确保模型训练的稳定性和性能。当数据包含分类特征,并且我们希望根据这些分类特征进行分组,然后对每个分组内的数值数据独立进行标准化时,问题便会变得复杂。直接将sklearn.preprocessing.StandardScaler应用于Pandas的DataFrameGroupBy对象,通常会导致错误,因为StandardScaler期望处理纯数值型数据,而DataFrameGroupBy对象本身是一个抽象的迭代器,且其内部可能仍包含非数值列。
考虑以下示例DataFrame:
import pandas as pd
from sklearn.preprocessing import StandardScaler
df = pd.DataFrame({
"cost": [30, 15, 100, 65, 75, 55, 29, 45],
"sales": [80, 88, 70, 80, 999, 70, 8, 95],
"da_value": ["low", "low", "high", "medium", "high", "medium", "low", "medium"],
"names": ["Jo", "Andrew", "AI", "Michael", "Nikola", "Jim", "Bojan", "Vurce"]
})
print(df)输出:
cost sales da_value names 0 30 80 low Jo 1 15 88 low Andrew 2 100 70 high AI 3 65 80 medium Michael 4 75 999 high Nikola 5 55 70 medium Jim 6 29 8 low Bojan 7 45 95 medium Vurce
如果尝试直接对df.groupby("da_value")的结果应用StandardScaler.fit_transform(),例如:
# 错误尝试
# df_dast = df.groupby("da_value")
# scaler = StandardScaler()
# df_dast_scaled = scaler.fit_transform(df_dast)将会遇到类似ValueError: could not convert string to float: 'high'的错误。这表明StandardScaler尝试处理了非数值列(如da_value),或者它无法直接操作DataFrameGroupBy对象。此外,即使移除非数值列,DataFrameGroupBy对象本身也无法直接作为fit_transform的输入,因为它不是一个单一的二维数组。
一种直观的方法是遍历DataFrameGroupBy对象生成的每个分组(它们是独立的DataFrame),对每个分组内的数值列进行标准化,然后将结果重新组合。
# 识别数值列和非数值列
numerical_cols = df.select_dtypes(include=['number']).columns.tolist()
non_numerical_cols = df.select_dtypes(exclude=['number']).columns.tolist()
scaled_dfs = []
for name, group in df.groupby("da_value"):
# 创建StandardScaler实例
scaler = StandardScaler()
# 仅对分组内的数值列进行标准化
scaled_data = scaler.fit_transform(group[numerical_cols])
# 将标准化后的数据转换回DataFrame,并保留原始索引
scaled_group_df = pd.DataFrame(scaled_data, columns=numerical_cols, index=group.index)
# 将非数值列与标准化后的数值列合并
# 确保合并时保留分组列本身,如果需要的话
# 这里我们直接将原始非数值列与标准化后的数值列拼接
combined_group_df = pd.concat([group[non_numerical_cols], scaled_group_df], axis=1)
scaled_dfs.append(combined_group_df)
# 将所有处理过的分组DataFrame拼接回一个完整的DataFrame
df_standardized_iterative = pd.concat(scaled_dfs).sort_index()
print("\n--- 迭代处理后的DataFrame ---")
print(df_standardized_iterative)这种方法清晰地展示了每个分组是如何被独立处理的,但对于大型数据集而言,可能效率不高。
Pandas的groupby().apply()方法提供了一种更简洁、更高效的方式来对每个分组应用自定义函数。我们可以定义一个函数,该函数接收一个分组DataFrame作为输入,执行标准化操作,并返回处理后的分组DataFrame。
def standardize_numerical_columns_in_group(group_df):
"""
对传入的DataFrame(一个分组)中的数值列进行标准化。
"""
scaler = StandardScaler()
# 识别当前分组中的数值列
current_numerical_cols = group_df.select_dtypes(include=['number']).columns.tolist()
# 识别当前分组中的非数值列
current_non_numerical_cols = group_df.select_dtypes(exclude=['number']).columns.tolist()
if not current_numerical_cols:
# 如果没有数值列,直接返回原始分组
return group_df
# 对数值列进行fit_transform
scaled_numerical_data = scaler.fit_transform(group_df[current_numerical_cols])
# 将标准化后的数据转换为DataFrame,并保持原始索引
scaled_df_part = pd.DataFrame(scaled_numerical_data,
columns=current_numerical_cols,
index=group_df.index)
# 将非数值列与标准化后的数值列合并
# 确保原始列的顺序和类型得到保留
# 使用pd.concat并指定轴为1,确保列的正确拼接
# 保持原始DataFrame的列顺序,将非数值列放在前面
# 首先获取原始DataFrame的列顺序
original_cols_order = df.columns.tolist()
# 创建一个包含非数值列和标准化数值列的新DataFrame
recombined_df = pd.concat([group_df[current_non_numerical_cols], scaled_df_part], axis=1)
# 按照原始DataFrame的列顺序重新排列列
return recombined_df[original_cols_order]
# 应用groupby().apply()
# group_keys=False 避免将分组键作为新的索引层级
df_standardized_apply = df.groupby('da_value', group_keys=False).apply(standardize_numerical_columns_in_group)
print("\n--- 使用groupby().apply() 标准化后的DataFrame ---")
print(df_standardized_apply)代码解释:
这种方法不仅代码更简洁,而且在性能上也通常优于手动迭代,因为它在C语言级别进行了优化。
原始问题中提及了使用pd.get_dummies进行One-Hot Encoding。需要明确的是,One-Hot Encoding (pd.get_dummies) 和数值特征标准化 (StandardScaler) 是两种不同的数据预处理技术,解决不同的问题:
例如,对da_value列进行One-Hot Encoding:
df_encoded = pd.get_dummies(df, columns=['da_value'], prefix='da_value')
print("\n--- One-Hot Encoding 后的DataFrame ---")
print(df_encoded)输出:
cost sales names da_value_high da_value_low da_value_medium 0 30 80 Jo 0 1 0 1 15 88 Andrew 0 1 0 2 100 70 AI 1 0 0 3 65 80 Michael 0 0 1 4 75 999 Nikola 1 0 0 5 55 70 Jim 0 0 1 6 29 8 Bojan 0 1 0 7 45 95 Vurce 0 0 1
可以看到,da_value列被转换成了三列新的数值列。如果在此基础上再进行标准化,StandardScaler会处理所有的数值列,包括原始的cost、sales以及新生成的da_value_high、da_value_low、da_value_medium。这与我们最初“在分组内标准化现有数值列”的目标不同。
因此,在进行数据预处理时,理解每种技术的目的至关重要,以避免混淆和错误应用。
通过本文的讲解,您应该能够清晰地理解如何在Pandas DataFrame中实现高效且正确的分组内数值数据标准化,并区分其与分类数据编码的不同应用场景。掌握这些技术将大大提升您在数据预处理阶段的效率和准确性。
以上就是Pandas DataFrame分组内数值数据标准化:策略与实践的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号