
首先,我们创建一个示例dataframe来模拟实际数据情况:
import pandas as pd
data = {
'id': [1, 2, 3],
'date': ['21 July 2023 (abcd)', '22 July 2023 00:00:01', '23 July 2023 -abcda']
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)输出:
原始DataFrame: id date 0 1 21 July 2023 (abcd) 1 2 22 July 2023 00:00:01 2 3 23 July 2023 -abcda
我们的目标是将date列转换为21 July 2023、22 July 2023、23 July 2023这样的标准化格式。
此方法通过查找并替换年份后的所有字符来清理字符串。关键在于使用正则表达式的正向后瞻(Positive Lookbehind)特性,它允许我们匹配某个模式之后的内容,而不将该模式本身包含在匹配结果中。
# 方法一:使用 str.replace 结合正向后瞻
df['date'] = df['date'].str.replace(r'(?<=\b\d{4}\b).*', '', regex=True)
print("\n方法一结果 (str.replace):")
print(df)输出:
方法一结果 (str.replace): id date 0 1 21 July 2023 1 2 22 July 2023 2 3 23 July 2023
*正则表达式解析 `r'(?<=\b\d{4}\b).'`:**
注意事项:
与替换不同,str.extract方法通过定义一个捕获组来直接提取符合特定模式的字符串部分。当日期字符串的格式相对固定,且我们明确知道要提取的模式时,此方法非常有效。
为了演示此方法,我们先重置DataFrame到原始状态。
# 重置DataFrame到原始状态
df = pd.DataFrame(data)
# 方法二:使用 str.extract 结合捕获组
df['date'] = df['date'].str.extract(r'(\d+ [a-zA-Z]+ \d{4})', expand=False)
print("\n方法二结果 (str.extract):")
print(df)输出:
方法二结果 (str.extract): id date 0 1 21 July 2023 1 2 22 July 2023 2 3 23 July 2023
正则表达式解析 r'(\d+ [a-zA-Z]+ \d{4})':
适用场景:
用户最初尝试使用df['date'].str.rsplit('2023', 1).str.get(0),这种方法的问题在于它会移除分隔符2023,导致年份丢失。虽然可以通过后续拼接来弥补,但这增加了操作的复杂性。
一种结合str.split和正向后瞻的变体可以实现类似效果,但通常不如前两种方法高效或通用:
# 重置DataFrame到原始状态
df = pd.DataFrame(data)
# 方法三:使用 str.split 结合正向后瞻 (仅供参考,效率略低)
df['date'] = df['date'].str.split(r'(?<=2023)', regex=True).str.get(0)
print("\n方法三结果 (str.split with lookbehind):")
print(df)输出:
方法三结果 (str.split with lookbehind): id date 0 1 21 July 2023 1 2 22 July 2023 3 3 23 July 2023
此方法同样利用了正向后瞻(?<=2023),在2023之后进行分割,并取第一部分。但它仅限于处理特定年份(如2023),且通常需要两次str操作(str.split后跟str.get),效率可能略低于单一的str.replace或str.extract。
在Pandas中清理日期字符串并保留年份,正则表达式是不可或缺的工具。
根据您的具体需求和日期字符串的复杂程度,选择最合适的正则表达式和Pandas方法,可以大大提高数据清洗的效率和准确性。
以上就是Pandas数据清洗:从日期字符串中移除年份后的多余信息的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号