python中怎么将一个大文件分块读取？-Python教程-PHP中文网

python中怎么将一个大文件分块读取？

穿越時空

发布： 2025-09-14 21:36:01

原创

229人浏览过

分块读取大文件可避免内存溢出，核心是使用生成器或迭代器每次读取部分数据。通过 open() 结合 iter(lambda: file.read(chunk_size), '') 或生成器函数实现，其中 chunk_size 通常设为1MB到10MB，需根据内存、文件类型和处理逻辑权衡。也可用 mmap 模块内存映射文件提升读取速度，但占用更多系统资源。处理文本文件时，为避免多字节字符截断导致解码错误，应使用 codecs.open() 指定编码，如UTF-8，确保正确处理字符边界。

python中怎么将一个大文件分块读取？

将大文件分块读取，是为了避免一次性加载整个文件到内存，导致内存溢出。核心在于使用迭代器或者生成器，每次只读取文件的一部分。

使用

open()

登录后复制

函数打开文件，然后利用

iter(lambda: file.read(chunk_size), '')

登录后复制

创建一个迭代器。

chunk_size

登录后复制

定义了每次读取的块大小。

def read_in_chunks(file_path, chunk_size=1024*1024): # 1MB的chunk
    """
    分块读取文件内容，返回一个生成器。
    """
    with open(file_path, 'r') as file_object:
        while True:
            chunk = file_object.read(chunk_size)
            if not chunk:
                break
            yield chunk

# 示例使用
file_path = 'your_large_file.txt'
for chunk in read_in_chunks(file_path):
    # 处理每个chunk
    print(f"处理了一个chunk，大小为：{len(chunk)} 字节")

登录后复制

如何选择合适的 chunk_size？

chunk_size

登录后复制

的选择直接影响内存占用和读取效率。太小会导致频繁的I/O操作，太大则可能超出内存限制。

内存限制： 首先要考虑你的机器的内存大小。留出足够的空间给其他进程和操作系统。
文件类型： 文本文件和二进制文件可能需要不同的策略。文本文件可以按行读取，避免截断行。
处理逻辑： 你的处理逻辑也会影响
```
chunk_size
```
登录后复制
的选择。如果需要完整的数据结构才能处理，那么
```
chunk_size
```
登录后复制
必须足够大，能够包含完整的数据结构。

一般来说，1MB 到 10MB 是一个不错的起点。可以通过实验找到最佳值。

立即学习“Python免费学习笔记（深入）”；

除了

read()

登录后复制

，还有什么其他方法？

mmap

登录后复制

模块提供了一种内存映射文件的方法，可以将文件的一部分映射到内存中，像访问内存一样访问文件。

小绿鲸英文文献阅读器

英文文献阅读器，专注提高SCI阅读效率

199

查看详情

import mmap

def read_with_mmap(file_path, chunk_size=1024*1024):
    """
    使用 mmap 分块读取文件。
    """
    with open(file_path, 'r') as f:
        with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as mm:
            for i in range(0, len(mm), chunk_size):
                chunk = mm[i:i+chunk_size]
                yield chunk

# 示例使用
file_path = 'your_large_file.txt'
for chunk in read_with_mmap(file_path):
    # 处理每个chunk
    print(f"处理了一个 mmap chunk，大小为：{len(chunk)} 字节")

登录后复制

mmap

登录后复制

的优点是可以直接操作内存，速度更快。缺点是需要更多的系统资源，并且对文件的修改可能会影响其他进程。

如何处理分块读取中的编码问题？

如果文件是文本文件，并且使用了特定的编码，那么在分块读取时需要注意编码问题。

如果

chunk_size

登录后复制

不小心截断了多字节字符，那么可能会导致解码错误。为了避免这个问题，可以使用

codecs

登录后复制

模块。

import codecs

def read_in_chunks_with_encoding(file_path, chunk_size=1024, encoding='utf-8'):
    """
    分块读取文件内容，并处理编码问题。
    """
    with codecs.open(file_path, 'r', encoding=encoding) as file_object:
        while True:
            chunk = file_object.read(chunk_size)
            if not chunk:
                break
            yield chunk

# 示例使用
file_path = 'your_large_file.txt'
for chunk in read_in_chunks_with_encoding(file_path, encoding='utf-8'):
    # 处理每个chunk
    print(f"处理了一个编码 chunk，大小为：{len(chunk)} 字节")

登录后复制