使用 Pandas 根据多列和时间分配唯一 ID

心靈之曲
发布: 2025-07-10 18:38:13
原创
591人浏览过

使用 pandas 根据多列和时间分配唯一 id

本文旨在帮助你解决 Pandas DataFrame 中基于多列(日期、名称、产品)以及时间(经过时间)分配唯一 ID 的问题。在某些场景下,例如分析用户行为日志,需要对特定用户在特定日期对特定产品的操作进行分组,并根据操作时间间隔进行进一步的细分。如果同一用户在同一日期对同一产品的操作时间间隔超过一定阈值,则应将其视为不同的会话,并分配不同的 ID。本文将提供两种解决方案,分别针对数据是否已排序的情况。

解决方案一:数据已排序

如果你的 DataFrame 已经按照日期、名称和产品进行了排序,那么可以使用 groupby() 和 ngroup() 方法结合 cumsum() 方法来快速生成 ID。

import pandas as pd

# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45]}
df = pd.DataFrame(data)

# 根据日期、名称和产品进行分组,并计算组ID
df['id'] = (df.groupby(['Date', 'Name', 'Product']).ngroup()
              .add(1+df['Elapsed_time'].ge(100).cumsum())
           )

print(df)
登录后复制

代码解释:

  1. df.groupby(['Date', 'Name', 'Product']): 这部分代码按照指定的列('Date', 'Name', 'Product')对 DataFrame 进行分组。
  2. .ngroup(): 这部分代码为每个不同的组分配一个唯一的整数 ID,从 0 开始。
  3. df['Elapsed_time'].ge(100): 这部分代码创建一个布尔 Series,指示 'Elapsed_time' 列中的值是否大于或等于 100。
  4. .cumsum(): 这部分代码计算布尔 Series 的累积和。由于 True 被视为 1,False 被视为 0,因此累积和会随着每个大于或等于 100 的 'Elapsed_time' 值递增。
  5. add(1 + ...): 将分组 ID 加上 1 和经过时间大于等于 100 的累积和,从而生成最终的 ID。加 1 是为了使 ID 从 1 开始,而不是从 0 开始。

注意事项:

  • 此方法依赖于数据已经按照日期、名称和产品排序。如果数据未排序,结果将不正确。
  • ngroup() 方法从 0 开始分配组 ID,因此需要加 1 以使 ID 从 1 开始。

解决方案二:数据未排序

如果你的 DataFrame 没有按照日期、名称和产品排序,那么你需要一种更通用的方法来处理。以下代码使用 ne()、shift()、any() 和 cumsum() 方法来实现此目的。

Lateral App
Lateral App

整理归类论文

Lateral App 50
查看详情 Lateral App
import pandas as pd

# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'A', 'A', 'A', 'A', 'B', 'A', 'A'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45, 120, 99, 80, 101, 300, 12, 37]}
df = pd.DataFrame(data)

# 定义需要比较的列
cols = ['Date', 'Name', 'Product']

# 计算 ID
df['id'] = (df[cols].ne(df[cols].shift())
     .assign(x=df['Elapsed_time'].ge(100))
     .any(axis=1).cumsum()
    )

print(df)
登录后复制

代码解释:

  1. cols = ['Date', 'Name', 'Product']: 定义需要进行比较的列的列表。
  2. df[cols].ne(df[cols].shift()): 将 DataFrame 中指定列的值与上一行进行比较,返回一个布尔 DataFrame,指示哪些值与上一行不同。shift() 函数将 DataFrame 的行向下移动一位。
  3. .assign(x=df['Elapsed_time'].ge(100)): 向布尔 DataFrame 添加一个新列 'x',该列指示 'Elapsed_time' 列中的值是否大于或等于 100。
  4. .any(axis=1): 对每一行应用 any() 函数,如果该行中至少有一个 True 值(即,日期、名称或产品与上一行不同,或者经过时间大于等于 100),则返回 True。
  5. .cumsum(): 计算布尔 Series 的累积和,从而生成最终的 ID。

注意事项:

  • 此方法不依赖于数据是否排序,因此更加通用。
  • 此方法使用了链式操作,使代码更加简洁易读。

总结

本文提供了两种使用 Pandas 为 DataFrame 分配唯一 ID 的解决方案,分别适用于数据已排序和未排序的情况。选择哪种方法取决于你的数据特点和性能要求。如果数据已经排序,可以使用 groupby() 和 ngroup() 方法来提高性能。如果数据未排序,则需要使用更通用的 ne()、shift()、any() 和 cumsum() 方法。希望本文能够帮助你解决实际问题。

以上就是使用 Pandas 根据多列和时间分配唯一 ID的详细内容,更多请关注php中文网其它相关文章!

相关标签:
最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门推荐
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号