python如何提取文本信息?

冷炫風刃
发布: 2025-11-22 22:00:02
原创
782人浏览过
先读取文本内容,再根据结构选择字符串处理、正则表达式或专用库提取信息。1. 读取文件或字符串变量;2. 用split()、find()等方法提取固定格式信息;3. 用re.findall()提取邮箱、电话、日期等规律性信息;4. 对JSON、HTML、PDF等结构化文本分别使用json、BeautifulSoup、PyPDF2等工具解析后提取。

python如何提取文本信息?

提取文本信息在Python中很常见,主要根据文本来源和结构选择合适的方法。核心思路是读取文本内容后,用字符串处理、正则表达式或专用库进行信息抽取。

1. 读取文本内容

先将文本加载到程序中,常见方式有读取文件或处理字符串变量。

示例:
  • 读取本地文本文件:
    with open('text.txt', 'r', encoding='utf-8') as f:
        text = f.read()
    登录后复制
  • 处理字符串:
    text = "这里是需要提取信息的文本内容"
    登录后复制

2. 使用字符串方法提取简单信息

适用于格式固定的文本,比如提取关键词前后的内容。

  • split() 分割文本: 按分隔符切分,取所需部分
    title = text.split("标题:")[1].split("\n")[0]
    登录后复制
  • find() + 切片: 定位关键词位置并提取
    start = text.find("电话:") + 3
    end = text.find("\n", start)
    phone = text[start:end]
    登录后复制

3. 使用正则表达式提取复杂模式

适合提取电话号码、邮箱、日期等有规律的信息。

j2me3D游戏开发简单教程 中文WORD版
j2me3D游戏开发简单教程 中文WORD版

本文档主要讲述的是j2me3D游戏开发简单教程; 如今,3D图形几乎是任何一部游戏的关键部分,甚至一些应用程序也通过用3D形式来描述信息而获得了成功。如前文中所述,以立即模式和手工编码建立所有的3D对象的方式进行开发速度很慢且很复杂。应用程序中多边形的所有角点必须在数组中独立编码。在JSR 184中,这称为立即模式。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看

j2me3D游戏开发简单教程 中文WORD版 0
查看详情 j2me3D游戏开发简单教程 中文WORD版

立即学习Python免费学习笔记(深入)”;

示例:
  • 提取邮箱:
    import re
    emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)
    登录后复制
  • 提取手机号:
    phones = re.findall(r'1[3-9]\d{9}', text)
    登录后复制
  • 提取日期(如2025-04-05):
    dates = re.findall(r'\d{4}-\d{2}-\d{2}', text)
    登录后复制

4. 处理结构化文本(如JSON、HTML、PDF)

不同格式需用对应工具解析后再提取。

  • JSON 数据:
    import json
    data = json.loads(text)
    value = data['key']
    登录后复制
  • HTML 页面(用 BeautifulSoup):
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(text, 'html.parser')
    titles = soup.find_all('h1')
    登录后复制
  • PDF 文件(用 PyPDF2 或 pdfplumber):
    import PyPDF2
    reader = PyPDF2.PdfReader('file.pdf')
    text = reader.pages[0].extract_text()
    登录后复制
基本上就这些。根据你的文本类型选对方法,再结合字符串操作和正则表达式,就能高效提取所需信息。

以上就是python如何提取文本信息?的详细内容,更多请关注php中文网其它相关文章!

python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号