Python如何做OCR识别？提取图片文字-Python教程-PHP中文网

1.tesseract ocr在python ocr中的优势包括开源免费、多语言支持和识别速度快；2.局限性是对图片质量要求高，难以处理模糊、倾斜、复杂背景或手写体文字；3.提升准确率的核心方法是图像预处理（如灰度化、二值化、去噪、调整dpi）；4.使用tesseract配置参数（如--psm、--oem）优化识别模式；5.处理多语言时需安装对应语言包并通过lang参数指定；6.面对复杂场景可采用深度学习ocr库（如easyocr、paddleocr）或自定义训练tesseract模型。

Python如何做OCR识别？提取图片文字

在Python中进行OCR（光学字符识别）来提取图片文字，最常用且高效的方案是结合Tesseract OCR引擎与Python的pytesseract库。这套组合不仅开源免费，而且在处理多种语言和不同字体时表现相当不错，对于大多数日常需求来说，它是个非常靠谱的选择。

解决方案

要实现Python的OCR识别，你需要做两件事：安装Tesseract OCR引擎本身，然后安装Python的封装库pytesseract。

首先，安装Tesseract OCR。这不是一个Python库，而是一个独立的命令行工具。Windows用户可以下载安装包（例如从UB Mannheim维护的GitHub页面），Mac用户可以用Homebrew安装：brew install tesseract。Linux用户则通过包管理器安装，比如Debian/Ubuntu是sudo apt install tesseract-ocr。安装完成后，确保Tesseract的可执行文件路径被添加到了系统的环境变量中，或者你清楚它的具体路径，因为pytesseract需要调用它。

立即学习“Python免费学习笔记（深入）”；

接着，安装pytesseract库：pip install pytesseract pillow。Pillow是处理图像的库，pytesseract依赖它来打开和处理图片。

下面是一个基本的代码示例，展示如何用pytesseract提取图片文字：

from PIL import Image
import pytesseract
import os

# 假设Tesseract安装在C:\Program Files\Tesseract-OCR
# 如果Tesseract不在系统PATH中，需要手动指定路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

def extract_text_from_image(image_path):
    """
    从指定图片路径中提取文字。
    """
    try:
        # 打开图片
        img = Image.open(image_path)
        # 使用Tesseract进行OCR识别
        text = pytesseract.image_to_string(img)
        return text
    except pytesseract.TesseractNotFoundError:
        print("错误：Tesseract OCR引擎未找到。请确保已安装Tesseract并将其路径添加到系统环境变量，或在代码中指定pytesseract.pytesseract.tesseract_cmd。")
        return None
    except FileNotFoundError:
        print(f"错误：图片文件未找到，请检查路径：{image_path}")
        return None
    except Exception as e:
        print(f"处理图片时发生未知错误：{e}")
        return None

# 示例用法
# 假设你的图片文件名为 'example.png' 放在当前目录下
# 如果图片不存在，请替换为你的实际图片路径
image_file = 'example.png' # 请替换为你的图片路径，例如 'path/to/your/image.jpg'

# 创建一个假的图片文件用于测试，如果你的目录下没有图片
# from PIL import ImageDraw, ImageFont
# img_test = Image.new('RGB', (300, 100), color = (255, 255, 255))
# d = ImageDraw.Draw(img_test)
# try:
#     # 尝试加载一个默认字体，如果找不到，就用Pillow的默认字体
#     fnt = ImageFont.truetype("arial.ttf", 20)
# except IOError:
#     fnt = ImageFont.load_default()
# d.text((10,10), "Hello, OCR!", fill=(0,0,0), font=fnt)
# img_test.save(image_file)
# print(f"已创建测试图片：{image_file}")


extracted_text = extract_text_from_image(image_file)
if extracted_text:
    print("\n提取到的文字内容：")
    print(extracted_text)

登录后复制

这段代码的核心就是pytesseract.image_to_string(img)，它会调用Tesseract引擎来处理图片并返回识别到的文本。

Tesseract OCR在图片文字识别中的优势与局限性是什么？

说实话，Tesseract之所以能成为Python OCR的“明星”，主要得益于它的几个明显优势。首先，它是开源的，这意味着你可以免费使用它，并且有一个庞大的社区在维护和改进。这对于个人开发者或者预算有限的项目来说，简直是福音。其次，它支持多语言识别，你可以下载各种语言包，让它识别中文、英文、日文等等。这在处理国际化文档时非常方便。再者，Tesseract的识别速度相对较快，对于批量处理图片，效率上还是挺有保障的。

然而，Tesseract也并非万能。在我实际使用过程中，发现它对图片质量的要求比较高。如果图片模糊、文字倾斜严重、背景复杂或者字体过于艺术化，它的识别准确率就会大打折扣。比如，手写体文字对Tesseract来说就是个巨大的挑战，它往往识别得一塌糊涂。另外，对于复杂的文档布局，比如表格或者多栏文本，Tesseract默认的识别模式可能无法很好地保持原有的结构，它可能会把所有文字一股脑儿地输出，导致你需要额外的工作来解析布局。所以，指望它能完美处理所有情况，那是不现实的。

如何提升Python OCR的识别准确率？

提升OCR识别准确率，很多时候不在于换一个更“高级”的库，而在于你给OCR引擎“喂”的图片质量。这就像你给厨师再好的食材，如果食材本身就不好，做出来的菜也有限。

核心思路是图片预处理。这是个技术活，但效果往往立竿见影。

灰度化与二值化： 彩色图片通常包含大量无关信息，将其转换为灰度图可以减少处理量。而二值化（将图片只保留黑白两种颜色）能最大化文字与背景的对比度，让Tesseract更容易区分。OpenCV是Python中处理图像的利器，可以轻松实现这些操作。

import cv2
import numpy as np
from PIL import Image

def preprocess_image(image_path):
    img = cv2.imread(image_path)
    if img is None:
        print(f"无法读取图片：{image_path}")
        return None

    # 转换为灰度图
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # 二值化处理（Otsu's Binarization）
    # 这种方法会自动寻找最佳阈值，适合背景不均匀的图片
    _, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

    # 转换为PIL Image格式，以便pytesseract处理
    return Image.fromarray(binary)

# 使用预处理后的图片进行OCR
# preprocessed_img = preprocess_image('example.png')
# if preprocessed_img:
#     text = pytesseract.image_to_string(preprocessed_img)
#     print("预处理后提取到的文字：\n", text)

登录后复制

去噪： 图片中的噪点（比如扫描件上的斑点）会干扰识别。可以使用中值滤波、高斯滤波等方法来平滑图像，去除这些不必要的干扰。
倾斜校正（Deskewing）： 如果图片中的文字是倾斜的，Tesseract识别起来会很吃力。通过图像处理算法检测文本的倾斜角度并进行旋转校正，能显著提升准确率。这通常需要一些更复杂的图像分析。

知我AI
一款多端AI知识助理，通过一键生成播客/视频/文档/网页文章摘要、思维导图，提高个人知识获取效率；自动存储知识，通过与知识库聊天，提高知识利用效率。

101

查看详情
调整DPI： Tesseract对图像的DPI（每英寸点数）有一定要求，通常建议在300 DPI左右。如果图片分辨率过低，可以尝试放大。
Tesseract配置参数： pytesseract.image_to_string()函数接受一个config参数，你可以通过它来调整Tesseract的识别模式。比如，--psm参数可以指定页面分割模式（Page Segmentation Mode），这对于处理不同布局的图片非常关键。例如，--psm 6适用于统一的文本块，而--psm 3是默认的，会尝试自动识别页面布局。如果你知道图片只有一行文字，可以使用--psm 7。
```
# 示例：指定PSM模式
# text_single_line = pytesseract.image_to_string(img, config='--psm 7')
# print("单行模式提取到的文字：\n", text_single_line)
```
登录后复制
你还可以通过--oem参数选择OCR引擎模式，比如--oem 1使用LSTM神经网络模型，通常更准确但速度稍慢。

记住，预处理不是一劳永逸的，它需要根据你的图片特点进行调整和优化。有时候，简单的二值化就够了，有时候则需要组合多种技术。

处理复杂或多语言图片文字识别的策略是什么？

遇到复杂或多语言的图片文字识别，确实需要一些额外的策略。单靠Tesseract的默认设置可能就不够了。

对于多语言识别，Tesseract是支持的，但你需要确保安装了对应的语言包。例如，要识别中文和英文混合的文本，你需要安装tesseract-ocr-chi-sim（简体中文）和tesseract-ocr-eng（英文）语言包。在代码中，通过lang参数指定：

# 识别中英文混合文本
# text_chinese_english = pytesseract.image_to_string(img, lang='chi_sim+eng')
# print("中英文混合识别结果：\n", text_chinese_english)

登录后复制

这里用+连接不同的语言代码，告诉Tesseract同时使用这些语言模型进行识别。

而对于复杂图片，比如表格、手写体、高度艺术化的字体，或者背景特别复杂的图片，Tesseract的传统方法可能就显得力不从心了。

表格识别： Tesseract本身对表格结构识别能力有限。通常的做法是，先用OpenCV等库进行表格线检测，将表格区域分割出来，然后对每个单元格单独进行OCR。更高级的方案会结合深度学习模型（如TableNet）来检测表格和单元格，再进行文字识别。
手写体和艺术字体： Tesseract对这类文字的识别效果普遍不佳。这时候，你可能需要考虑深度学习OCR模型。近年来，基于卷积神经网络（CNN）和循环神经网络（RNN）的OCR模型（如CRNN、Attention-based模型）在手写体和复杂字体识别上取得了显著进展。像EasyOCR、PaddleOCR这些库，它们底层就是基于深度学习模型，对于这类挑战性任务，表现往往远超传统Tesseract。虽然它们安装和部署可能稍微复杂一些，但效果是值得的。
```
# 示例：使用EasyOCR (需要先安装 easyocr)
# import easyocr
# reader = easyocr.Reader(['ch_sim', 'en']) # 指定需要识别的语言
# results = reader.readtext('example.png')
# for (bbox, text, prob) in results:
#     print(f"文本: {text}, 置信度: {prob:.2f}")
```
登录后复制
这种方式通常能提供更鲁棒的识别能力，并且能够更好地处理各种扭曲、旋转的文本。
自定义训练Tesseract： 如果你面对的是特定字体或特定格式的文档，并且Tesseract默认模型识别效果不理想，可以考虑自定义训练Tesseract模型。这涉及到准备大量的标注数据（图片和对应的文字），然后用Tesseract的训练工具链进行模型训练。这无疑是个耗时耗力的过程，但对于非常垂直和重复的OCR任务，它能带来最高的准确率提升。