Pandas处理Excel重复列名：如何精确选取第二列或后续数据-Python教程-PHP中文网

Pandas处理Excel重复列名：如何精确选取第二列或后续数据

花韻仙語

发布： 2025-11-03 11:14:01

原创

189人浏览过

Pandas处理Excel重复列名：如何精确选取第二列或后续数据

在处理包含重复列名的excel文件时，pandas的`read_excel`函数会自动为重复列名添加`.1`, `.2`等后缀进行区分。本文将详细介绍这一机制，并指导如何利用这些自动生成的后缀精确地选取和处理重复列中的第二列或后续数据，从而避免只获取第一列数据的问题，并演示如何将处理后的数据导出为tsv文件。

理解Pandas对重复列名的处理机制

在数据分析和处理过程中，我们经常会遇到从外部数据源（尤其是Excel文件）读取数据的情况。然而，某些Excel文件可能由于设计原因包含重复的列名。当使用Pandas的pd.read_excel()函数读取这类文件时，Pandas并不会简单地忽略重复列，而是会智能地对它们进行重命名，以确保每个列名都是唯一的。

具体来说，Pandas会保留第一个出现的列名，并为后续出现的同名列添加一个递增的数字后缀。例如，如果Excel文件中存在三个名为“ColumnA”的列，Pandas读取后，它们在DataFrame中的列名将变为“ColumnA”、“ColumnA.1”和“ColumnA.2”。这种自动重命名机制是解决重复列名问题的关键。

访问重复列中的特定数据

要访问重复列中的特定数据（例如，第二个或第三个同名列的数据），我们不再使用原始的列名，而是使用Pandas自动生成的带有后缀的新列名。

示例：处理AISC形状数据库Excel文件

以下是一个具体的例子，演示如何从一个包含重复列名的AISC形状数据库Excel文件中提取第二列的特定数据，并将其导出为制表符分隔值（TSV）文件。

首先，我们需要加载必要的库并从指定URL下载Excel文件：

import pandas as pd
import requests
from io import BytesIO

# AISC形状数据库的URL
url = "https://www.aisc.org/globalassets/product-files-not-searched/" \
      "manuals/aisc-shapes-database-v16.0.xlsx"

# 通过requests获取文件内容，并使用BytesIO使其可被pandas读取
response = requests.get(url)
data = BytesIO(response.content)

# 读取Excel文件，指定sheet_name
# 注意：sheet_name可能需要根据实际文件进行调整
df = pd.read_excel(data, sheet_name="Database v16.0")

# 打印DataFrame的前几行和所有列名，以便观察Pandas如何处理重复列名
print("DataFrame预览:")
print(df.head())
print("\n所有列名:")
print(df.columns.tolist())

登录后复制

运行上述代码后，您会发现df.columns.tolist()的输出中包含了AISC_Manual_Label、AISC_Manual_Label.1等类似的列名，以及h, in、h.1和b, in、b.1等列名。这正是Pandas自动处理重复列名的结果。

序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

查看详情

假设我们希望获取第二列的AISC_Manual_Label、h, in（高度）和b, in（宽度）数据。根据Pandas的重命名规则，这些列名将是AISC_Manual_Label.1、h.1和b.1。

选取并导出所需数据

现在，我们可以通过直接指定这些带有后缀的列名来选取数据：

# 选取我们需要的第二组重复列的数据
# 请根据实际的df.columns输出调整列名
selected_columns = ["AISC_Manual_Label.1", "h.1", "b.1"]
subset_df = df[selected_columns]

# 打印选取的数据子集预览
print("\n选取数据子集预览:")
print(subset_df.head())

# 将选取的数据导出为TSV文件
output_filename = "profiles_second_set.txt"
subset_df.to_csv(output_filename, sep="\t", index=False)

print(f"\n数据已成功导出到 {output_filename}")

登录后复制

在这个例子中，subset_df将包含来自Excel文件中第二组AISC_Manual_Label、h, in和b, in的数据。to_csv()函数结合sep="\t"参数，可以方便地将DataFrame导出为制表符分隔的文件，index=False则避免将DataFrame的索引写入文件。

注意事项与总结

检查列名： 在处理任何可能包含重复列名的Excel文件时，强烈建议在读取数据后立即打印df.columns.tolist()来查看Pandas实际生成的列名。这是确定正确列名（尤其是带后缀的列名）的关键步骤。
后缀规则： Pandas的后缀从.1开始，表示原始列名的第二次出现，.2表示第三次出现，依此类推。
避免迭代： 对于这种需求，通常不需要使用df.iterrows()进行行迭代。直接通过列名选择DataFrame的子集是更高效、更“Pandas风格”的做法。
df.duplicated()的用途： df.duplicated()方法主要用于查找和处理DataFrame中重复的行，而不是重复的列名。因此，它不适用于解决本教程中描述的重复列名问题。

通过理解Pandas处理重复列名的机制，并利用其自动生成的后缀，我们可以精确地访问Excel文件中任意位置的重复列数据，从而高效地完成数据提取和转换任务。

以上就是Pandas处理Excel重复列名：如何精确选取第二列或后续数据的详细内容，更多请关注php中文网其它相关文章！