Pandas 与 SQL 交互：高效更新数据库表列的实践指南-Python教程-PHP中文网

Pandas 与 SQL 交互：高效更新数据库表列的实践指南

碧海醫心

发布： 2025-10-07 12:23:09

原创

742人浏览过

Pandas 与 SQL 交互：高效更新数据库表列的实践指南

本教程详细介绍了如何使用 Pandas DataFrame 的数据更新 SQL 数据库表中的特定列。文章提供了两种主要策略：针对小规模数据的逐行更新方法，以及针对大规模数据集更高效的通过创建临时表进行批量更新的方法。两种方法均包含详细的代码示例，并强调了主键的重要性、性能考量以及相关数据库权限要求，旨在帮助用户选择并实现最适合其场景的更新方案。

在数据分析和处理的日常工作中，我们经常需要从数据库中提取数据到 pandas dataframe 进行操作，然后将修改后的数据同步回数据库。当需要更新数据库中现有表的一列或多列数据时，尤其是在处理大型数据集时，选择一个高效且可靠的方法至关重要。本文将详细探讨两种常用的更新策略，并提供相应的 python 代码示例。

方法一：逐行更新（适用于小规模数据集）

这种方法通过遍历 Pandas DataFrame 的每一行，为每一行生成并执行一个 SQL UPDATE 语句。它直观易懂，但在处理大量数据时效率较低，因为每次更新都需要与数据库进行一次往返通信。

工作原理

连接到数据库。
从数据库读取数据到 Pandas DataFrame。
在 DataFrame 中对目标列进行修改。
遍历修改后的 DataFrame，针对每一行构建一个 UPDATE 语句，并使用行中的主键（或其他唯一标识符）作为 WHERE 子句的条件。
执行 UPDATE 语句。
提交事务并关闭数据库连接。

示例代码

以下代码演示了如何使用 pyodbc 库连接到 SQL Server 数据库，并逐行更新 myTable 表中的 myColumn 列。

import pandas as pd
import pyodbc as odbc

# 1. 连接到数据库
# 请替换 <connection_stuff> 为您的实际数据库连接字符串
# 示例：'DRIVER={ODBC Driver 17 for SQL Server};SERVER=your_server;DATABASE=your_db;UID=your_user;PWD=your_password'
try:
    sql_conn = odbc.connect("<connection_stuff>")
    print("数据库连接成功！")
except odbc.Error as ex:
    sqlstate = ex.args[0]
    print(f"数据库连接失败: {sqlstate}")
    exit()

# 2. 从数据库读取数据到DataFrame
query = "SELECT <PrimaryKeyColumn>, myColumn FROM myTable" # 确保选择主键列
df = pd.read_sql(query, sql_conn)

# 3. 在DataFrame中修改数据
# 假设我们有一个新的值列表来更新 'myColumn'
myNewValueList = [11, 12, 13, 14, 15, 16, 17, 18, 19, 20] # 示例值，实际应与DataFrame行数匹配
if len(myNewValueList) == len(df):
    df['myColumn'] = myNewValueList
else:
    print("警告：新值列表长度与DataFrame行数不匹配，请检查数据。")
    # 这里可以根据实际情况处理，例如截断或填充
    # 为了示例，我们假设它们匹配

# 4. 准备UPDATE语句
# 使用问号 '?' 作为参数占位符，适用于 pyodbc
update_sql = "UPDATE myTable SET myColumn = ? WHERE <PrimaryKeyColumn> = ?"

# 5. 遍历DataFrame并执行更新
cursor = sql_conn.cursor()
try:
    for index, row in df.iterrows():
        # 确保 'myColumn' 和 '<PrimaryKeyColumn>' 存在于 row 中
        cursor.execute(update_sql, (row['myColumn'], row['<PrimaryKeyColumn>']))

    # 6. 提交更改并关闭连接
    sql_conn.commit()
    print(f"成功更新了 {len(df)} 行数据。")

except odbc.Error as ex:
    sqlstate = ex.args[0]
    print(f"更新数据时发生错误: {sqlstate}")
    sql_conn.rollback() # 回滚事务
finally:
    cursor.close()
    sql_conn.close()
    print("数据库连接已关闭。")

登录后复制

注意事项

主键的重要性： 在 UPDATE 语句的 WHERE 子句中必须使用一个或多个列来唯一标识每一行。通常，这是表的主键。如果缺少唯一标识符，可能会导致错误的行被更新。
性能限制： 对于包含数十万甚至数百万行的大型数据集，这种逐行更新的方法会导致大量的数据库往返操作，从而严重影响性能。这被称为“N+1查询问题”。
错误处理： 在实际应用中，应加入更完善的错误处理机制，例如 try-except-finally 块来确保连接的正确关闭和事务的回滚。

方法二：批量更新（适用于大规模数据集）

为了解决逐行更新的性能问题，尤其是对于大型数据集，更推荐使用批量更新的方法。这种方法通常涉及将修改后的 DataFrame 写入一个临时表，然后利用数据库自身的批量操作能力，通过一个 SQL JOIN 语句从临时表更新目标表。

工作原理

连接到数据库（通常需要 sqlalchemy 引擎来配合 pandas.to_sql）。
从数据库读取数据到 Pandas DataFrame。
在 DataFrame 中对目标列进行修改。
将修改后的 DataFrame 写入数据库中的一个临时表。pandas.to_sql 方法在此处非常有用。
执行一个 SQL UPDATE 语句，该语句通过 JOIN 操作将目标表与临时表连接起来，并根据临时表中的新值更新目标表。
删除临时表。

示例代码

以下代码演示了如何结合 pyodbc 和 sqlalchemy 来实现批量更新。sqlalchemy 提供了一个抽象层，使得 pandas.to_sql 能够方便地与各种数据库交互。

Veed Video Background Remover

Veed推出的视频背景移除工具

查看详情

import pandas as pd
import pyodbc as odbc
from sqlalchemy import create_engine, text # 引入 text 函数来执行原始SQL

# 1. 使用 SQLAlchemy 创建数据库引擎 (to_sql 方法需要)
# 请替换 <connection_stuff> 为您的实际数据库连接字符串
# 示例：'mssql+pyodbc://user:password@server_name/database_name?driver=ODBC+Driver+17+for+SQL+Server'
# 注意：连接字符串格式与pyodbc直接连接可能略有不同
try:
    engine = create_engine('mssql+pyodbc://<connection_stuff>')
    print("SQLAlchemy 引擎创建成功！")
except Exception as e:
    print(f"SQLAlchemy 引擎创建失败: {e}")
    exit()

# 2. 使用 pyodbc 连接并读取数据到DataFrame (如果需要，也可以用 SQLAlchemy)
# 保持与方法一相同的读取方式，方便代码复用
try:
    sql_conn = odbc.connect("<connection_stuff>") # 这里的连接字符串可能与上面略有不同
    print("pyodbc 数据库连接成功！")
except odbc.Error as ex:
    sqlstate = ex.args[0]
    print(f"pyodbc 数据库连接失败: {sqlstate}")
    exit()

query = "SELECT <PrimaryKeyColumn>, myColumn FROM myTable" # 确保选择主键列
df = pd.read_sql(query, sql_conn)
sql_conn.close() # 读取完数据后可以关闭 pyodbc 连接

# 3. 在DataFrame中修改数据
myNewValueList = [11, 12, 13, 14, 15, 16, 17, 18, 19, 20] # 示例值
if len(myNewValueList) == len(df):
    df['newColumnValues'] = myNewValueList # 创建一个新列来存储新值
else:
    print("警告：新值列表长度与DataFrame行数不匹配，请检查数据。")
    # 同样，根据实际情况处理

# 4. 将修改后的DataFrame写入一个临时表
temp_table_name = 'temp_myTable_update_data' # 临时表的名称
try:
    df.to_sql(temp_table_name, engine, if_exists='replace', index=False)
    print(f"DataFrame 已成功写入临时表 '{temp_table_name}'。")
except Exception as e:
    print(f"写入临时表失败: {e}")
    exit()

# 5. 执行 SQL 语句，从临时表更新原始表
with engine.connect() as conn:
    try:
        # 假设 'id' 是你的主键列，请替换为实际的主键列名 <PrimaryKeyColumn>
        update_query = text(f"""
        UPDATE myTable
        SET myColumn = temp.newColumnValues
        FROM myTable
        INNER JOIN {temp_table_name} AS temp
        ON myTable.<PrimaryKeyColumn> = temp.<PrimaryKeyColumn>;
        """)
        conn.execute(update_query)
        conn.commit() # 提交事务
        print(f"原始表 'myTable' 已从临时表 '{temp_table_name}' 批量更新成功。")

    except Exception as e:
        print(f"批量更新失败: {e}")
        conn.rollback() # 回滚事务

    finally:
        # 6. 删除临时表
        try:
            drop_table_query = text(f"DROP TABLE {temp_table_name};")
            conn.execute(drop_table_query)
            conn.commit() # 提交删除操作
            print(f"临时表 '{temp_table_name}' 已删除。")
        except Exception as e:
            print(f"删除临时表失败: {e}")
            conn.rollback() # 回滚删除操作（如果可能）

登录后复制

注意事项

sqlalchemy 依赖： 此方法需要安装 sqlalchemy 库 (pip install sqlalchemy)。
连接字符串： sqlalchemy 的 create_engine 方法对连接字符串的格式有特定要求，可能与 pyodbc.connect 的直接连接字符串有所不同。请查阅 sqlalchemy 针对您所用数据库的文档。
临时表管理： 确保临时表的名称是唯一的，以避免冲突。在完成更新后，务必删除临时表以清理数据库资源。
数据库权限： 执行此操作的用户需要具备在数据库中创建表、插入数据、更新数据以及删除表的权限。
JOIN 条件： 批量更新的 UPDATE 语句中的 JOIN 条件必须正确，通常是基于主键列进行连接，以确保数据更新的准确性。
事务管理： 使用 with engine.connect() as conn: 语句可以确保连接被正确管理，并且 conn.commit() 和 conn.rollback() 用于控制事务，保障数据一致性。