
在数据处理中,我们经常会遇到结构复杂的json数据,其中包含多层嵌套的字典和列表。例如,以下是一个典型的复杂json结构:
data = {
"id": 12345,
"name": "Doe",
"gender": {
"textEn": "Masculin"
},
"professions": [
{
"job_description": {
"textEn": "Job description"
},
"cetTitles": [
{
"cetTitleType": {
"textEn": "Recognition"
},
"issuanceDate": "1992-04-14T00:00:00Z",
"phoneNumbers": [
"123 221 00 70"
]
}
]
}
]
}我们的目标是将这样的数据扁平化,使其所有关键信息都作为Pandas DataFrame的列,最终形成一个单行表格,便于后续的数据分析和存储。直接使用pd.json_normalize处理多层嵌套的列表和字典可能会遇到困难,特别是当record_path需要深入到多层结构时。
pd.json_normalize函数是处理嵌套JSON数据的强大工具。它允许我们指定一个record_path来展开列表中的记录,并使用meta参数来保留其他非列表字段。
确定record_path: record_path参数用于指定一个列表,该列表中的元素是JSON路径,指向需要展开的“记录列表”。在我们的例子中,professions是一个列表,其内部的cetTitles也是一个列表。因此,我们可以将record_path设置为["professions", "cetTitles"],以展开最深层的cetTitles列表。
确定meta字段: meta参数用于指定哪些非列表字段应该被保留并添加到最终的DataFrame中。它可以是一个字符串列表(用于顶级字段)或一个列表的列表(用于嵌套字段)。
结合以上,我们可以构建初始的json_normalize调用:
import pandas as pd
df = pd.json_normalize(
data=data,
record_path=["professions", "cetTitles"],
meta=["id", "name", "gender", ["professions", "job_description"]]
)此时,df会包含cetTitles中的字段,以及id、name、gender和job_description。然而,gender和job_description会作为嵌套的字典对象出现在DataFrame列中,例如{'textEn': 'Masculin'}。
为了达到期望的扁平化效果,我们需要对json_normalize的输出进行进一步处理。
处理列表字段 (phoneNumbers): cetTitles中的phoneNumbers字段本身是一个列表。如果一个cetTitle有多个电话号码,我们希望每个电话号码都占据一行,或者如果只有一个,则直接扁平化。explode()函数可以有效地处理这种情况,它会将列表中的每个元素转换为单独的行。
df = df.explode(column="phoneNumbers")
扁平化{'textEn': 'value'}格式的字典字段: gender和job_description列现在包含形如{'textEn': 'Masculin'}的字典。为了提取textEn的值并将其作为独立的列,我们可以采用以下步骤:
# 处理 gender 字段
df = df.join(pd.DataFrame(df.pop("gender").values.tolist()))
# 处理 job_description 字段
df = df.join(pd.DataFrame(df.pop("professions.job_description").values.tolist()))请注意,professions.job_description是json_normalize在处理meta参数时自动生成的列名。
统一列名: 经过上述处理,可能会出现gender.textEn、professions.job_description.textEn这样的列名,以及textEn这样的通用列名。我们需要将其统一为更简洁的名称。
一个通用的方法是,如果列名包含.textEn,则只保留textEn后面的部分,或者直接重命名。
# 统一处理所有以 .textEn 结尾的列名
df.columns = df.columns.str.split(".").str[-1]
# 针对 gender 和 job_description 进行精确重命名,以防万一
# 此时,如果前面已经执行了 df.columns = df.columns.str.split(".").str[-1],
# 那么 gender.textEn 会变成 textEn,我们需要将其改回 gender。
# 更好的做法是在通用重命名后,再进行特定列的重命名。
df = df.rename(columns={"textEn": "gender"}) # 此时的 textEn 可能是 gender 转换来的
df = df.rename(columns={"textEn": "job_description"}) # 此时的 textEn 可能是 job_description 转换来的
# 注意:如果存在多个 'textEn',这种重命名方式可能会覆盖。
# 更严谨的做法是先处理特定的,再处理通用的,或者根据原始列名判断。
# 鉴于原始数据结构,这里两次 rename 效果是正确的,因为 pop 已经将原始列移除。更稳健的重命名策略是,在每次join后立即重命名新生成的列,或者在所有join完成后,根据原始列名映射进行重命名。考虑到json_normalize会将gender和professions.job_description作为完整的字典保留,然后我们手动将其展开,所以最终会生成textEn列。
将上述步骤整合起来,得到以下完整的Python代码:
import pandas as pd
data = {
"id": 12345,
"name": "Doe",
"gender": {
"textEn": "Masculin"
},
"professions": [
{
"job_description": {
"textEn": "Job description"
},
"cetTitles": [
{
"cetTitleType": {
"textEn": "Recognition"
},
"issuanceDate": "1992-04-14T00:00:00Z",
"phoneNumbers": [
"123 221 00 70"
]
}
]
}
]
}
# 1. 使用 json_normalize 扁平化主要结构
# record_path 指向最深层的列表,meta 包含需要保留的顶层和中间层字段
df = pd.json_normalize(
data=data,
record_path=["professions", "cetTitles"],
meta=["id", "name", "gender", ["professions", "job_description"]]
)
# 2. 扁平化 phoneNumbers 列表(如果一个 cetTitle 有多个电话号码,会生成多行)
df = df.explode(column="phoneNumbers")
# 3. 扁平化 'gender' 字典字段
# 提取 'gender' 列,将其内部字典转换为 DataFrame,然后合并
gender_df = pd.DataFrame(df.pop("gender").values.tolist())
df = df.join(gender_df)
df = df.rename(columns={"textEn": "gender"}) # 重命名新生成的 'textEn' 列为 'gender'
# 4. 扁平化 'professions.job_description' 字典字段
# 提取 'professions.job_description' 列,将其内部字典转换为 DataFrame,然后合并
job_description_df = pd.DataFrame(df.pop("professions.job_description").values.tolist())
df = df.join(job_description_df)
df = df.rename(columns={"textEn": "job_description"}) # 重命名新生成的 'textEn' 列为 'job_description'
# 5. 统一处理剩余的列名,例如 'cetTitleType.textEn' -> 'cetTitleType'
# 这一步应该在所有 pop 和 join 之后执行,以确保所有列名都被处理
df.columns = df.columns.str.split(".").str[-1]
print(df)执行上述代码,将得到以下DataFrame:
issuanceDate phoneNumbers id name gender job_description cetTitleType 0 1992-04-14T00:00:00Z 123 221 00 70 12345 Doe Masculin Job description Recognition
这个输出与我们期望的扁平化表格完全一致,所有嵌套信息都被成功提取并作为独立的列呈现。
通过掌握pd.json_normalize及其配合explode、pop、join和列重命名等技巧,可以高效地处理各种复杂嵌套的JSON数据,将其转换为易于分析的表格形式。
以上就是如何使用Pandas规范化多层嵌套的复杂JSON数据的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号