
本文介绍了如何使用 Pandas DataFrame 基于多列(日期、姓名、产品)以及时间间隔(Elapsed_time)为数据分配唯一的ID。核心逻辑在于当日期、姓名、产品组合发生变化,或者同一组合内的时间间隔超过100秒时,ID需要递增。文章提供了两种解决方案,并详细解释了代码实现,帮助读者理解并应用于实际场景。
在数据分析和处理中,经常需要为数据集中的记录分配唯一的ID,以便于后续的分析和操作。当需要基于多个列的组合以及时间条件来分配ID时,就需要用到一些技巧。本文将介绍如何使用 Pandas DataFrame 实现这一功能,并提供详细的代码示例和解释。
此方法的核心思想是检测每一行数据与前一行相比,日期、姓名、产品是否有变化,或者时间间隔是否大于等于100秒。如果满足任一条件,则ID递增。
import pandas as pd
# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23'],
'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl'],
'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'A', 'A', 'A', 'A', 'B', 'A', 'A'],
'Elapsed_time': [30, 99, 10, 100, 1, 15, 45, 120, 99, 80, 101, 300, 12, 37]}
df = pd.DataFrame(data)
# 定义需要检查的列
cols = ['Date', 'Name', 'Product']
# 计算ID
df['id'] = (df[cols].ne(df[cols].shift()) # 比较当前行与前一行,判断Date/Name/Product是否发生变化
.assign(x=df['Elapsed_time'].ge(100)) # 创建一个新列,判断Elapsed_time是否大于等于100
.any(axis=1) # 对每一行,判断是否有任意列为True(即Date/Name/Product发生变化或Elapsed_time大于等于100)
.cumsum() # 对True/False序列进行累积求和,得到ID
)
print(df)代码解释:
注意事项:
如果数据已经按照日期、姓名、产品排序,可以使用 groupby() 函数进行分组,然后结合累积求和来分配ID。
import pandas as pd
# 示例数据 (确保已排序)
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23'],
'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John'],
'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C'],
'Elapsed_time': [30, 99, 10, 100, 1, 15, 45]}
df = pd.DataFrame(data)
# 计算ID
df['id'] = (df.groupby(['Date', 'Name', 'Product']).ngroup() # 对Date/Name/Product进行分组,并为每个组分配一个唯一的整数ID
.add(1+df['Elapsed_time'].ge(100).cumsum()) # 将组ID加上一个基于Elapsed_time的累积和,如果Elapsed_time大于等于100,则累积和会递增
)
print(df)代码解释:
注意事项:
本文介绍了两种使用 Pandas DataFrame 基于多列和时间间隔分配唯一ID的方法。第一种方法基于变化检测和累积求和,适用于数据未排序的情况。第二种方法基于分组和累积求和,适用于数据已排序的情况。选择哪种方法取决于数据的特点和需求。在实际应用中,需要根据具体情况选择合适的方法,并注意数据的排序和边界条件。
以上就是Pandas DataFrame 中基于多列和时间分配唯一ID的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号