Pandas DataFrame日期字符串清洗：精确截取至年份的实用技巧-Python教程-PHP中文网

Pandas DataFrame日期字符串清洗：精确截取至年份的实用技巧

霞舞

发布： 2025-10-06 12:44:01

原创

180人浏览过

Pandas DataFrame日期字符串清洗：精确截取至年份的实用技巧

本教程介绍如何使用Pandas高效清洗DataFrame中的日期字符串，目标是保留“日月年”格式并移除年份后的所有多余信息。我们将探讨利用正则表达式配合str.replace进行替换和str.extract进行精确提取的两种主要方法，确保数据格式的标准化。

在数据分析和处理中，日期数据的格式不一致是一个常见问题。例如，一个日期列可能包含“21 july 2023 (abcd)”、“22 july 2023 00:00:01”或“23 july 2023 -abcda”等多种带有额外信息的字符串。我们的目标是将这些日期字符串统一清洗为标准的“日月年”格式，即保留年份信息，并删除年份之后的所有字符。

初始数据准备

首先，我们创建一个示例Pandas DataFrame来模拟这种常见的数据场景：

import pandas as pd

# 创建示例 DataFrame
data = {
    'id': [1, 2, 3],
    'date': [
        '21 July 2023 (abcd)',
        '22 July 2023 00:00:01',
        '23 July 2023 -abcda',
        '01 Jan 2024 (test)' # 增加一个不同年份的例子
    ]
}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

登录后复制

输出的原始 DataFrame 如下：

原始 DataFrame:
   id                 date
0   1  21 July 2023 (abcd)
1   2  22 July 2023 00:00:01
2   3  23 July 2023 -abcda
3   4   01 Jan 2024 (test)

登录后复制

方法一：使用 str.replace 结合正则表达式进行替换

pandas.Series.str.replace 方法允许我们使用正则表达式来查找并替换字符串中的模式。通过巧妙地构造正则表达式，我们可以定位到年份之后的所有字符并将其替换为空字符串，从而达到清洗的目的。

原理分析

我们使用的正则表达式是 r'(?<=\b\d{4}\b).*'。

\b: 这是一个单词边界锚点，确保 \d{4} 匹配的是一个独立的四位数，而不是其他数字串的一部分。
\d{4}: 匹配任意连续的四个数字，这通常代表年份。
(?<=...): 这是一个“正向后瞻断言”（Positive Lookbehind Assertion）。它表示匹配的模式必须紧跟在括号内的模式之后，但括号内的模式本身不作为匹配结果的一部分。在这里，它确保我们匹配的是紧跟在四位年份数字之后的字符。
.*: 匹配任意字符（除了换行符）零次或多次。

结合起来，(?<=\b\d{4}\b).* 的含义是：匹配所有紧跟在独立的四位数字（年份）之后的所有字符。我们将这些匹配到的字符替换为空字符串，从而移除年份后的所有内容。

示例代码

# 方法一：使用 str.replace 结合正则表达式
df_replace = df.copy() # 复制 DataFrame 以便比较
df_replace['date'] = df_replace['date'].str.replace(r'(?<=\b\d{4}\b).*', '', regex=True)

print("\n使用 str.replace 清洗后的 DataFrame:")
print(df_replace)

登录后复制

输出结果：

使用 str.replace 清洗后的 DataFrame:
   id          date
0   1  21 July 2023
1   2  22 July 2023
2   3  23 July 2023
3   4   01 Jan 2024

登录后复制

方法二：使用 str.extract 结合正则表达式进行提取

pandas.Series.str.extract 方法用于从字符串中提取符合特定正则表达式模式的子串。如果正则表达式中包含捕获组（即用括号 () 包裹的部分），str.extract 将返回这些捕获组的内容。

原理分析

我们使用的正则表达式是 r'(\d+ [a-zA-Z]+ \d{4})'。

(\d+ [a-zA-Z]+ \d{4}): 这是一个捕获组，它定义了我们希望提取的日期格式。
- \d+: 匹配一个或多个数字，代表日期中的“日”。
- ` `: 匹配一个空格。
- [a-zA-Z]+: 匹配一个或多个英文字母，代表日期中的“月”。
- ` `: 匹配一个空格。
- \d{4}: 匹配四个数字，代表日期中的“年”。

这个正则表达式直接描述了我们期望的“日月年”格式。str.extract 会找到并返回与这个捕获组匹配的子串。

巧文书

巧文书是一款AI写标书、AI写方案的产品。通过自研的先进AI大模型，精准解析招标文件，智能生成投标内容。

查看详情

示例代码

# 方法二：使用 str.extract 结合正则表达式
df_extract = df.copy() # 复制 DataFrame 以便比较
df_extract['date'] = df_extract['date'].str.extract(r'(\d+ [a-zA-Z]+ \d{4})', expand=False)

print("\n使用 str.extract 清洗后的 DataFrame:")
print(df_extract)

登录后复制

输出结果：

使用 str.extract 清洗后的 DataFrame:
   id          date
0   1  21 July 2023
1   2  22 July 2023
3   3  23 July 2023
4   4   01 Jan 2024

登录后复制

注意： expand=False 参数确保 str.extract 返回一个 Series 而不是 DataFrame，这使得我们可以直接赋值给原列。

其他考虑与注意事项

年份的灵活性: 上述两种方法都使用了 \d{4} 来匹配任意四位数字的年份，这使得它们能够处理不同年份的数据，而不仅仅是固定的“2023”。如果你的需求是只针对某个特定年份（例如，只在“2023”之后进行截断），你可以将 \d{4} 替换为具体的年份，例如 2023。
- str.replace 示例：df['date'].str.replace(r'(?<=2023).*', '', regex=True)
- str.extract 示例：df['date'].str.extract(r'(\d+ [a-zA-Z]+ 2023)', expand=False)
效率考量:
- str.replace 和 str.extract 通常在一次操作中完成任务，对于大型数据集而言，它们的效率通常较高。
- 避免使用多步 str 操作链，例如 df['date'].str.split(r'(?<=2023)', regex=True).str.get(0)。虽然这种方法也能实现类似效果，但它涉及到两次字符串操作（split 和 get），可能会降低性能。
数据类型转换: 清洗后的日期列仍然是 object（字符串）类型。为了进行更高级的日期时间操作（如排序、计算时间差、按时间维度聚合等），强烈建议将其转换为 Pandas 的 datetime 类型：
```
df_cleaned = df_replace.copy() # 或 df_extract
df_cleaned['date'] = pd.to_datetime(df_cleaned['date'], format='%d %B %Y')

print("\n转换为 datetime 类型后的 DataFrame:")
print(df_cleaned)
print("\n'date' 列的数据类型:", df_cleaned['date'].dtype)
```
登录后复制
输出结果：
```
转换为 datetime 类型后的 DataFrame:
   id       date
0   1 2023-07-21
1   2 2023-07-22
2   3 2023-07-23
3   4 2024-01-01

'date' 列的数据类型: datetime64[ns]
```
登录后复制
注意： format='%d %B %Y' 参数非常重要，它告诉 pd.to_datetime 函数如何解析日期字符串（%d 代表日，%B 代表完整的月份名称，%Y 代表四位年份）。如果你的月份是缩写（如 "Jul"），则应使用 %b。

总结

本文介绍了两种在Pandas DataFrame中清洗日期字符串的有效方法，旨在保留“日月年”格式并移除年份后的冗余信息。str.replace 结合正向后瞻断言的正则表达式适用于删除特定模式后的内容，而 str.extract 则通过捕获组直接提取所需模式。在实际应用中，选择哪种方法取决于你的具体需求和个人偏好。无论选择哪种，最终都建议将清洗后的字符串转换为 datetime 类型，以便进行后续的日期时间分析。掌握这些技巧将大大提高你在数据预处理阶段的效率和准确性。

以上就是Pandas DataFrame日期字符串清洗：精确截取至年份的实用技巧的详细内容，更多请关注php中文网其它相关文章！