使用 Pandas pd.cut 函数将数据列分割成区间-Python教程-PHP中文网

使用 Pandas pd.cut 函数将数据列分割成区间

DDD

发布： 2025-08-12 22:46:14

原创

933人浏览过

使用 pandas pd.cut 函数将数据列分割成区间

本文将详细介绍如何使用 Pandas 库中的 pd.cut 函数，将 DataFrame 中的数值列分割成自定义区间。通过指定区间的边界和标签，可以灵活地对数据进行分组和分析。同时，讨论了如何处理区间为空的情况，以及如何优化代码以避免潜在的错误。

使用 pd.cut 函数创建数值区间

Pandas 库的 pd.cut 函数是一个强大的工具，可以将连续的数值数据离散化为不同的区间。这在数据分析和可视化中非常有用，例如将年龄段划分为“青年”、“中年”、“老年”等类别。

pd.cut 函数的基本语法如下：

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

登录后复制

其中：

x: 要进行分割的一维数组或 Series。
bins: 区间的边界。可以是一个整数，表示将数据分割成多少个等宽的区间；也可以是一个序列，表示自定义的区间边界。
right: 一个布尔值，指示是否包含最右边的边界值。默认为 True。
labels: 区间的标签。如果指定，则标签的数量必须与区间的数量相同。
retbins: 一个布尔值，指示是否返回计算后的区间边界。默认为 False。

下面是一个简单的示例，演示如何使用 pd.cut 函数将 DataFrame 中的 some_value 列分割成三个区间：

import pandas as pd

df = pd.DataFrame(
    {"some_value":[1, 44746, 27637, 18236, 1000, 15000,34000]}
)

df["cutoffs"] = pd.cut(
    df.some_value,
    bins=[0, 15000, 30000, 45000],
    right=False,
    labels=["x < 15000", "x >= 15000 and x < 30000", "x >= 30000 and x < 45000"],
)

print(df)

登录后复制

这段代码首先创建了一个包含 some_value 列的 DataFrame。然后，使用 pd.cut 函数将 some_value 列分割成三个区间，边界分别为 0, 15000, 30000 和 45000。right=False 表示区间不包含右边界值。labels 参数指定了每个区间的标签。最后，将分割后的结果赋值给 DataFrame 的 cutoffs 列。

运行结果如下：

Tellers AI

Tellers是一款自动视频编辑工具，可以将文本、文章或故事转换为视频。

查看详情

   some_value                   cutoffs
0           1                 x < 15000
1       44746  x >= 30000 and x < 45000
2       27637  x >= 15000 and x < 30000
3       18236  x >= 15000 and x < 30000
4        1000                 x < 15000
5       15000  x >= 15000 and x < 30000
6       34000  x >= 30000 and x < 45000

登录后复制

处理空区间的情况

在实际应用中，可能会遇到某个区间为空的情况。例如，如果 DataFrame 中的所有 some_value 都小于 15000，那么 "x >= 15000 and x < 30000" 和 "x >= 30000 and x < 45000" 这两个区间都将为空。

如果在后续的代码中尝试访问空区间的最大值或最小值，将会导致错误。为了避免这种情况，可以使用 try-except 语句来捕获异常，或者使用 fillna 函数来填充空值。

以下是一个使用 fillna 函数处理空区间的示例：

import pandas as pd
import numpy as np

df = pd.DataFrame(
    {"some_value":[1, 1000, 1000, 1000, 1000, 1000,1000]}
)

df["cutoffs"] = pd.cut(
    df.some_value,
    bins=[0, 15000, 30000, 45000],
    right=False,
    labels=["x < 15000", "x >= 15000 and x < 30000", "x >= 30000 and x < 45000"],
)

# 使用 fillna 函数填充空值
df["cutoffs"] = df["cutoffs"].fillna("x < 15000")

print(df)

登录后复制

在这个示例中，如果 cutoffs 列中存在空值（NaN），fillna("x < 15000") 将会将这些空值替换为 "x < 15000"。这样可以避免后续代码因为空区间而出现错误。

总结

pd.cut 函数是 Pandas 库中一个非常有用的工具，可以将数值数据分割成自定义区间。通过灵活地指定区间的边界和标签，可以方便地对数据进行分组和分析。在实际应用中，需要注意处理空区间的情况，以避免潜在的错误。通过使用 try-except 语句或 fillna 函数，可以有效地解决这个问题。希望本文能够帮助你更好地理解和使用 pd.cut 函数。

以上就是使用 Pandas pd.cut 函数将数据列分割成区间的详细内容，更多请关注php中文网其它相关文章！