如何使用 Python 清理和对齐 CSV 文件中的字段-Python教程-PHP中文网

如何使用 Python 清理和对齐 CSV 文件中的字段

花韻仙語

发布： 2025-09-19 19:49:00

原创

425人浏览过

如何使用 python 清理和对齐 csv 文件中的字段

“本文旨在提供一种使用 Python 清理和对齐 CSV 文件中字段的方法，特别是当 CSV 文件中的行具有不同数量的字段时。我们将使用 pandas 库将数据拆分为数据帧，根据行中项目的数量对数据进行分组，并打印结果以进行进一步清理。”

当处理包含不一致数据的 CSV 文件时，数据清理和对齐可能是一项挑战。以下步骤将指导你完成使用 Python 和 pandas 库来实现此目的的过程。

1. 导入必要的库

首先，导入 pandas 库，它提供了强大的数据操作和分析工具。

import pandas as pd

登录后复制

2. 加载和分割数据

将你的 CSV 数据加载到字符串变量中。然后，按行分割数据，并使用逗号作为分隔符分割每行中的字段。

立即学习“Python免费学习笔记（深入）”；

Calliper 文档对比神器

文档内容对比神器

查看详情

data = """
30,1204,PO,71100,147130,I09,B10,OC,350,20105402
31,1221,PO,70400,147170,I09,B10,OC,500,20105402
32,1223,SI,70384,147122,I09,B10,OC,500,PN,3,BO,OI,20105402
33,1224,SI,70392,147032,I09,B10,OC,500,PN,1,BO,OI,20105402
34,1227,PO,70400,146430,I09,B10,PF,500,20105402
35,1241,PO,71100,146420,I09,B10,PF,500,20105402
36,1249,PO,71100,146000,I09,B10,SN,500,20105402
37,1305,PO,70400,146000,I09,B10,OC,500,20105402
38,1307,SI,70379,146041,I09,B10,OC,500,21,BH,1,BO,195,40,SW,20105402
39,1312,SD,70372,146062,I09,B10,OC,500,20105402
40,1332,SI,70334,146309,I09,B10,OC,500,PN,4,BO,OI,20105402
41,1332,SI,70334,146309,I09,B10,OC,500,PN,5,BO,OI,20105403
42,1333,SI,70333,146324,I09,B10,OC,500,PN,2,BO,OI,20105403
43,1334,SI,70328,146348,I09,B10,OC,500,PN,1,BO,OI,20105403
44,1335,SI,70326,146356,I09,B10,OC,500,PN,1,BO,OI,20105403
45,1336,SI,70310,146424,I09,B10,OC,500,PN,1,BO,OI,20105403
46,1338,SI,70302,146457,I10,B10,OC,500,PN,1,BO,OI,20105403
47,1338,SI,70301,146464,I10,B10,OC,500,PN,1,BO,OI,20105403
48,1340,SI,70295,146503,I10,B10,OC,500,PN,8,BO,OI,20105403
49,1405,LD,2,70119,148280,I10,B10,OC,0000,20105403
01,1024,LA,1R,70120,148280,B10,OC,0000,21105501
02,1039,PO,70340,149400,I10,B10,OC,500,21105501
03,1045,SI,70378,149025,I10,B07,PF,300,PN,17,BO,OI,21105501
"""

all_data = {}
for line in map(str.strip, data.splitlines()):
    if line == "":
        continue
    line = line.split(",")
    all_data.setdefault(len(line), []).append(line)

登录后复制

3. 根据字段数量创建 DataFrame

接下来，遍历分割后的数据，并根据每行中字段的数量创建 pandas DataFrame。这将把具有相同数量字段的行分组在一起。

for v in all_data.values():
    df = pd.DataFrame(v)
    print(df)
    print("-" * 80)

登录后复制

4. 输出和进一步清理

前面的代码将打印出每个 DataFrame。从这里，你可以根据你的具体需求进一步清理数据。这可能包括：

重命名列： 使用 df.columns = ['col1', 'col2', ...] 为列赋予有意义的名称。
数据类型转换： 使用 df['col1'] = df['col1'].astype(int) 将列转换为适当的数据类型（例如，整数、浮点数、字符串）。
处理缺失值： 使用 df.fillna(value) 填充缺失值，或使用 df.dropna() 删除包含缺失值的行。
数据对齐： 根据你的数据上下文，你可能需要对齐不同 DataFrame 中的列。这可能涉及合并 DataFrame 或创建新的列。

完整代码示例

import pandas as pd

data = """
30,1204,PO,71100,147130,I09,B10,OC,350,20105402
31,1221,PO,70400,147170,I09,B10,OC,500,20105402
32,1223,SI,70384,147122,I09,B10,OC,500,PN,3,BO,OI,20105402
33,1224,SI,70392,147032,I09,B10,OC,500,PN,1,BO,OI,20105402
34,1227,PO,70400,146430,I09,B10,PF,500,20105402
35,1241,PO,71100,146420,I09,B10,PF,500,20105402
36,1249,PO,71100,146000,I09,B10,SN,500,20105402
37,1305,PO,70400,146000,I09,B10,OC,500,20105402
38,1307,SI,70379,146041,I09,B10,OC,500,21,BH,1,BO,195,40,SW,20105402
39,1312,SD,70372,146062,I09,B10,OC,500,20105402
40,1332,SI,70334,146309,I09,B10,OC,500,PN,4,BO,OI,20105402
41,1332,SI,70334,146309,I09,B10,OC,500,PN,5,BO,OI,20105403
42,1333,SI,70333,146324,I09,B10,OC,500,PN,2,BO,OI,20105403
43,1334,SI,70328,146348,I09,B10,OC,500,PN,1,BO,OI,20105403
44,1335,SI,70326,146356,I09,B10,OC,500,PN,1,BO,OI,20105403
45,1336,SI,70310,146424,I09,B10,OC,500,PN,1,BO,OI,20105403
46,1338,SI,70302,146457,I10,B10,OC,500,PN,1,BO,OI,20105403
47,1338,SI,70301,146464,I10,B10,OC,500,PN,1,BO,OI,20105403
48,1340,SI,70295,146503,I10,B10,OC,500,PN,8,BO,OI,20105403
49,1405,LD,2,70119,148280,I10,B10,OC,0000,20105403
01,1024,LA,1R,70120,148280,B10,OC,0000,21105501
02,1039,PO,70340,149400,I10,B10,OC,500,21105501
03,1045,SI,70378,149025,I10,B07,PF,300,PN,17,BO,OI,21105501
"""

all_data = {}
for line in map(str.strip, data.splitlines()):
    if line == "":
        continue
    line = line.split(",")
    all_data.setdefault(len(line), []).append(line)

for k, v in all_data.items():
    df = pd.DataFrame(v)
    print(f"DataFrame with {k} columns:")
    print(df)
    print("-" * 80)

登录后复制