
本文详细介绍了如何将pandas dataframe中包含字典列表的复杂列展开为多个独立的列。通过两种主要方法,包括使用`.str[0]`结合`.apply(pd.series)`进行直接转换,以及通过模板字典和`.where()`方法更精细地处理空列表和缺失值,帮助读者高效地从嵌套数据结构中提取并重构数据。
在数据分析和处理中,我们经常会遇到DataFrame的某一列中存储着复杂的数据结构,例如列表、字典,甚至是字典的列表。当需要将这些嵌套数据展开为独立的列时,Pandas提供了一些强大的工具。本文将专注于如何将一列包含字典列表的数据,转换为一个新的DataFrame,其中字典的键成为新的列名。
假设我们有一个DataFrame,其中一列名为stats,它的每个元素可能是一个包含一个或多个字典的列表,或者是一个空列表。
import pandas as pd
import numpy as np
# 构造示例DataFrame
df = pd.DataFrame(
{
"stats": [
[{"city": None, "last_time": 1234567}],
[], # 空列表
[{"city": "Seattle", "last_time": 45678999876}]
]
}
)
print("原始DataFrame:")
print(df)原始DataFrame:
stats
0 [{'city': None, 'last_time': 1234567}]
1 []
2 [{'city': 'Seattle', 'last_time': 45678999876}]我们的目标是将其转换为以下形式:
city last_time 0 NaN 1234567.00 1 None NaN # 或 'NA' 2 Seattle 45678999876.00
直接尝试使用pd.DataFrame(df["stats"])或类似的构造会失败,因为它无法自动解析嵌套的列表和字典结构,特别是当存在空列表时,会导致数据类型不一致或错误。
这种方法适用于列表中只包含一个字典,并且我们希望提取这个字典的内容的情况。
df["stats"].str[0]:
.apply(pd.Series):
# 方法一实现
out1 = df["stats"].str[0].apply(pd.Series)
print("\n方法一输出:")
print(out1)输出结果:
city last_time 0 NaN 1234567.00 1 NaN NaN 2 Seattle 45678999876.00
注意事项:
有时,我们可能希望对空列表的处理有更明确的控制,例如,将空列表对应的行填充为 None 或特定的默认值,而不是 NaN。这种方法通过引入一个模板字典来解决这个问题。
PHPWind(简称:PW,中国国家版权局著作权登记号为:2004SR06082)的使命是让网站更具价值,让更多人从网络中享受便利,以提升生活品质。 PHPWind的两位创始人王学集、林耀纳于2003年发布了PHPWind的前身版本ofstar,并发展成为包含BBS、CMS、博客、SNS等一系列程序的通用型建站软件。至今累计已有超过120万网站使用phpwind,每天还有1000个新增网站,这些
271
stats = df["stats"].str[0]: 这一步与方法一相同,提取每个列表的第一个元素。结果中空列表的位置会是 NaN。
templ = dict.fromkeys(["city", "last_time"]): 创建一个模板字典,包含我们期望的所有列名,值为默认的 None。这个模板将用于填充那些由空列表导致的 NaN 行。
stats.where(stats.notnull(), templ):
.apply(pd.Series): 最后,对处理过的Series应用 pd.Series,将其中的字典展开为新的列。
# 方法二实现
stats_extracted = df["stats"].str[0]
# 创建一个模板字典,用于填充因空列表而产生的NaN
templ = dict.fromkeys(["city", "last_time"])
# 使用where方法替换NaN值,然后应用pd.Series
out2 = stats_extracted.where(stats_extracted.notnull(), templ).apply(pd.Series)
print("\n方法二输出:")
print(out2)输出结果:
city last_time 0 NaN 1234567.00 1 None NaN 2 Seattle 45678999876.00
注意事项:
两种方法都能有效地将包含字典列表的列展开为新的DataFrame。
方法一 (.str[0].apply(pd.Series)):
方法二 (.str[0].where(stats.notnull(), templ).apply(pd.Series)):
在实际应用中,你可以根据具体的数据清洗需求和对缺失值的处理策略来选择最合适的方法。无论选择哪种方法,理解其背后的原理和对不同数据情况(如空列表、None 值)的处理方式都至关重要。
以上就是从包含字典列表的DataFrame列创建新DataFrame的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号