使用 Pandas 根据多列和时间分配唯一 ID-Python教程-PHP中文网

使用 Pandas 根据多列和时间分配唯一 ID

心靈之曲

发布： 2025-07-10 18:38:13

原创

591人浏览过

使用 pandas 根据多列和时间分配唯一 id

本文旨在帮助你解决 Pandas DataFrame 中基于多列（日期、名称、产品）以及时间（经过时间）分配唯一 ID 的问题。在某些场景下，例如分析用户行为日志，需要对特定用户在特定日期对特定产品的操作进行分组，并根据操作时间间隔进行进一步的细分。如果同一用户在同一日期对同一产品的操作时间间隔超过一定阈值，则应将其视为不同的会话，并分配不同的 ID。本文将提供两种解决方案，分别针对数据是否已排序的情况。

解决方案一：数据已排序

如果你的 DataFrame 已经按照日期、名称和产品进行了排序，那么可以使用 groupby() 和 ngroup() 方法结合 cumsum() 方法来快速生成 ID。

import pandas as pd

# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45]}
df = pd.DataFrame(data)

# 根据日期、名称和产品进行分组，并计算组ID
df['id'] = (df.groupby(['Date', 'Name', 'Product']).ngroup()
              .add(1+df['Elapsed_time'].ge(100).cumsum())
           )

print(df)

登录后复制

代码解释：

df.groupby(['Date', 'Name', 'Product']): 这部分代码按照指定的列（'Date', 'Name', 'Product'）对 DataFrame 进行分组。
.ngroup(): 这部分代码为每个不同的组分配一个唯一的整数 ID，从 0 开始。
df['Elapsed_time'].ge(100): 这部分代码创建一个布尔 Series，指示 'Elapsed_time' 列中的值是否大于或等于 100。
.cumsum(): 这部分代码计算布尔 Series 的累积和。由于 True 被视为 1，False 被视为 0，因此累积和会随着每个大于或等于 100 的 'Elapsed_time' 值递增。
add(1 + ...): 将分组 ID 加上 1 和经过时间大于等于 100 的累积和，从而生成最终的 ID。加 1 是为了使 ID 从 1 开始，而不是从 0 开始。

注意事项：

此方法依赖于数据已经按照日期、名称和产品排序。如果数据未排序，结果将不正确。
ngroup() 方法从 0 开始分配组 ID，因此需要加 1 以使 ID 从 1 开始。

解决方案二：数据未排序

如果你的 DataFrame 没有按照日期、名称和产品排序，那么你需要一种更通用的方法来处理。以下代码使用 ne()、shift()、any() 和 cumsum() 方法来实现此目的。

Lateral App

整理归类论文

查看详情

import pandas as pd

# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'A', 'A', 'A', 'A', 'B', 'A', 'A'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45, 120, 99, 80, 101, 300, 12, 37]}
df = pd.DataFrame(data)

# 定义需要比较的列
cols = ['Date', 'Name', 'Product']

# 计算 ID
df['id'] = (df[cols].ne(df[cols].shift())
     .assign(x=df['Elapsed_time'].ge(100))
     .any(axis=1).cumsum()
    )

print(df)

登录后复制

代码解释：

cols = ['Date', 'Name', 'Product']: 定义需要进行比较的列的列表。
df[cols].ne(df[cols].shift()): 将 DataFrame 中指定列的值与上一行进行比较，返回一个布尔 DataFrame，指示哪些值与上一行不同。shift() 函数将 DataFrame 的行向下移动一位。
.assign(x=df['Elapsed_time'].ge(100)): 向布尔 DataFrame 添加一个新列 'x'，该列指示 'Elapsed_time' 列中的值是否大于或等于 100。
.any(axis=1): 对每一行应用 any() 函数，如果该行中至少有一个 True 值（即，日期、名称或产品与上一行不同，或者经过时间大于等于 100），则返回 True。
.cumsum(): 计算布尔 Series 的累积和，从而生成最终的 ID。

注意事项：

此方法不依赖于数据是否排序，因此更加通用。
此方法使用了链式操作，使代码更加简洁易读。

总结

本文提供了两种使用 Pandas 为 DataFrame 分配唯一 ID 的解决方案，分别适用于数据已排序和未排序的情况。选择哪种方法取决于你的数据特点和性能要求。如果数据已经排序，可以使用 groupby() 和 ngroup() 方法来提高性能。如果数据未排序，则需要使用更通用的 ne()、shift()、any() 和 cumsum() 方法。希望本文能够帮助你解决实际问题。

以上就是使用 Pandas 根据多列和时间分配唯一 ID的详细内容，更多请关注php中文网其它相关文章！