在 DataFrame 中查找包含特定条目的整行数据-Python教程-PHP中文网

在 DataFrame 中查找包含特定条目的整行数据

聖光之護

发布： 2025-10-17 10:25:01

原创

1011人浏览过

在 dataframe 中查找包含特定条目的整行数据

本文介绍了如何使用 Python 和 Pandas 在 DataFrame 中查找包含特定条目的整行数据。通过构建正则表达式并利用 multimode 函数，可以高效地找到 DataFrame 中 cat1 列中最频繁出现的词，并返回包含这些词的所有行，极大地优化了原始代码的效率。

在处理数据时，经常需要在 DataFrame 中查找包含特定值的行。例如，给定一个 DataFrame，我们想找到 cat1 列中最频繁出现的词，并返回包含这些词的所有行。本文将提供一种高效的方法来实现这个目标。

方法概述

核心思路是：

构建正则表达式： 将 DataFrame 中 cat1 列的所有词提取出来，构建一个正则表达式，用于在文本中查找这些词。
查找所有匹配项： 使用正则表达式在文本中查找所有匹配的词。
找出最频繁的词： 使用 multimode 函数找出所有匹配项中最频繁出现的词。
返回包含这些词的行： 使用 isin 函数找到 DataFrame 中 cat1 列包含这些最频繁词的所有行。

代码实现

以下是完整的代码实现：

行者AI

行者AI绘图创作，唤醒新的灵感，创造更多可能

100

查看详情

import re
from statistics import multimode
import pandas as pd

# 示例 DataFrame
data = {'cat0': ['x0', 'x1', 'x2', 'x3', 'x4'],
        'cat1': ['Two', 'Seven', 'Eight', 'Eight', 'twelve'],
        'cat2': ['y0', 'y1', 'y2', 'y2', 'y7']}
A = pd.DataFrame(data)


def subject_findall(string, df=A):
    """
    在 DataFrame 中查找包含特定条目的整行数据。

    Args:
        string (str): 要搜索的文本。
        df (pd.DataFrame): 要搜索的 DataFrame。

    Returns:
        pd.DataFrame: 包含最频繁词的所有行。
    """
    s = df['cat1'].str.replace(r"[^nA-Za-z-ÖØ-öø-ÿ+]+", "",
                               regex=True).str.lower()
    words = set(s)
    regex = '|'.join(map(re.escape, words))
    top = multimode(re.findall(regex, string.lower()))
    if not top:
        return 'nosubjectfound'
    else:
        print(f'most common: {", ".join(top)}')
        return df[s.isin(top)]


# 示例用法
text = 'This is an example with Seven Two Seven and Eight Eight.'
out = subject_findall(text)
print(out)

登录后复制

代码解释：

导入必要的库： 导入 re 用于正则表达式操作，statistics 中的 multimode 用于查找最频繁的词，pandas 用于数据处理。
定义 subject_findall 函数：
- 该函数接收一个字符串和一个 DataFrame 作为输入。
- 使用 str.replace 和正则表达式清理 cat1 列中的数据，将其转换为小写。
- 使用 set 获取 cat1 列中所有唯一的词。
- 使用 map 和 re.escape 构建正则表达式，确保特殊字符被正确转义。
- 使用 re.findall 在文本中查找所有匹配的词。
- 使用 multimode 找出所有匹配项中最频繁出现的词。
- 如果找不到匹配项，则返回 'nosubjectfound'。
- 否则，打印最频繁的词，并使用 isin 函数找到 DataFrame 中 cat1 列包含这些最频繁词的所有行，并返回这些行。
示例用法：
- 创建一个示例文本。
- 调用 subject_findall 函数，并将文本和 DataFrame 作为参数传递。
- 打印返回的结果。

输出结果：

most common: seven, eight
  cat0   cat1 cat2
1   x1  Seven   y1
2   x2  Eight   y2
3   x3  Eight   y2

登录后复制

注意事项

性能优化： 使用正则表达式和 multimode 函数可以显著提高代码的效率，避免了不必要的循环。
数据清洗： 在构建正则表达式之前，需要对 cat1 列中的数据进行清洗，去除特殊字符，并转换为小写，以确保匹配的准确性。
处理空值： 如果 DataFrame 中包含空值，需要先处理这些空值，否则可能会导致错误。
multimode 的行为： multimode 返回一个列表，包含所有出现次数最多的元素。如果只有一个元素出现次数最多，则列表只包含该元素。

总结

本文介绍了一种高效的方法，用于在 DataFrame 中查找包含特定条目的整行数据。通过构建正则表达式和利用 multimode 函数，可以快速找到 DataFrame 中 cat1 列中最频繁出现的词，并返回包含这些词的所有行。这种方法可以应用于各种数据处理场景，提高数据分析的效率。

以上就是在 DataFrame 中查找包含特定条目的整行数据的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

Python RTF到PDF转换：在无Word环境下处理图片内容的解决方案从Word文档中提取超链接：Python教程解决 docxtpl 渲染 Word 文档时图片丢失的问题解决 docxtpl 渲染 Word 模板时图片丢失的问题将Excel表格数据带样式复制到Word文档：Python实现教程