使用 Python 计算文件在磁盘上的实际占用空间(Size on Disk)

聖光之護
发布: 2025-11-09 13:10:13
原创
917人浏览过

使用 python 计算文件在磁盘上的实际占用空间(size on disk)

本文详细介绍了如何使用 Python 准确计算文件在磁盘上的实际占用空间(Size on Disk),而非其逻辑大小。通过利用 `os.lstat` 和 `os.statvfs` 获取文件系统块大小,并结合文件大小进行向上取整计算,确保在创建固定大小镜像等场景中避免空间不足问题。文章还提供了性能优化方案和重要注意事项。

理解文件大小与磁盘占用

在文件系统中,我们通常会遇到两种大小概念:

  • 逻辑大小 (Size):这是文件实际包含的数据量,例如通过 os.path.getsize() 获取的值。
  • 磁盘占用大小 (Size on Disk):这是文件在磁盘上实际占用的物理空间。文件系统以固定大小的“块”(Block)来分配存储空间。即使一个文件只包含少量数据,不足一个块的大小,它也至少会占用一个完整的块。因此,文件的实际磁盘占用通常是其逻辑大小向上取整到最近的块大小倍数。

对于需要精确控制存储空间的场景,例如使用 dd 命令创建固定大小的磁盘镜像,或者评估存储介质的实际利用率时,了解文件的“磁盘占用大小”至关重要。如果仅依据逻辑大小进行预分配,可能会因实际占用空间超出预期而导致“空间不足”错误。

使用 Python 计算文件在磁盘上的实际占用

Python 标准库提供了获取文件和文件系统元数据的方法,我们可以利用这些信息来计算文件的实际磁盘占用。核心思路是:

立即学习Python免费学习笔记(深入)”;

  1. 获取文件的逻辑大小。
  2. 获取文件所在文件系统的分配块大小。
  3. 根据逻辑大小和块大小计算实际占用的块数,并乘以块大小。

核心函数实现

以下是一个用于计算常规文件在磁盘上实际占用空间的 Python 函数:

import os
import stat

def size_on_disk(path: str) -> int:
    """
    计算常规文件在磁盘上的实际占用空间(Size on Disk)。

    Args:
        path (str): 文件的路径。

    Returns:
        int: 文件在磁盘上的实际占用字节数。

    Raises:
        NotImplementedError: 如果路径不是常规文件(例如目录、符号链接)。
    """
    # 1. 获取文件状态信息
    st = os.lstat(path)

    # 2. 检查文件类型:仅支持常规文件
    if not stat.S_ISREG(st.st_mode):
        raise NotImplementedError(f"路径 '{path}' 不是常规文件,此函数仅支持常规文件。")

    # 3. 获取文件系统状态信息,以获取块大小
    # f_frsize 是文件系统分配单元(fragment size),通常等同于块大小
    st_vfs = os.statvfs(path)
    block_size = st_vfs.f_frsize

    # 4. 计算文件占用的块数
    # divmod(a, b) 返回 (a // b, a % b)
    n_blocks, rem_bytes = divmod(st.st_size, block_size)

    # 如果有余数,说明文件内容需要额外一个块来存储
    # bool(rem_bytes) 在 rem_bytes > 0 时为 True (转换为 1),否则为 False (转换为 0)
    total_blocks = n_blocks + bool(rem_bytes)

    # 5. 计算实际磁盘占用大小
    return total_blocks * block_size
登录后复制

代码解析:

美间AI
美间AI

美间AI:让设计更简单

美间AI 45
查看详情 美间AI
  • os.lstat(path):获取文件的状态信息。st.st_size 提供了文件的逻辑大小(字节数)。
  • stat.S_ISREG(st.st_mode):判断文件是否为常规文件。此函数设计上只处理常规文件。
  • os.statvfs(path):获取文件所在文件系统的状态信息。st_vfs.f_frsize 返回文件系统分配单元的大小,这通常就是我们所说的块大小(Block Size)。
  • divmod(st.st_size, block_size):计算文件逻辑大小能完整包含多少个块 (n_blocks),以及剩余的字节数 (rem_bytes)。
  • n_blocks + bool(rem_bytes):如果 rem_bytes 大于 0,表示文件内容需要额外的半个或一个块来存储,因此总块数需要加 1(bool(rem_bytes) 会将非零值转换为 True,再转换为整数 1)。
  • 最终结果是 total_blocks * block_size,即文件在磁盘上实际占用的字节数。

重要的限制与注意事项

在使用上述函数时,请务必注意以下限制和行为:

  • 文件类型限制:此函数仅适用于常规文件。它不能直接计算目录、符号链接、管道文件或设备文件等在磁盘上的占用。要计算目录的实际占用,您需要递归遍历目录下的所有常规文件,并累加它们的 size_on_disk。
  • 操作系统兼容性:此实现主要针对 Linux、Unix 或 macOS 等类 Unix 系统。os.statvfs 在 Windows 上不可用。
  • 计算范围:此函数计算的是文件内容数据在磁盘上占用的空间。它不包括文件名、目录条目、inode本身或其他文件系统元数据所占用的空间。
  • 空文件处理:当文件逻辑大小 (st.st_size) 为 0 时,上述函数会返回 0。然而,大多数文件系统即使对于空文件也会分配一个完整的块来存储其元数据。这意味着,此函数对于空文件的计算结果可能与文件系统的实际行为存在差异。在需要极其精确的场景下,这一点需要特别注意。

性能优化:缓存文件系统信息

os.statvfs() 调用会查询文件系统,这可能是一个相对耗时的操作。如果您的程序需要对同一卷(磁盘分区)上的大量文件重复调用 size_on_disk 函数,可以考虑缓存 os.statvfs 的结果,以避免重复查询。

文件系统设备 ID (st.st_dev) 可以作为缓存键,因为同一设备上的所有文件共享相同的 statvfs 信息。

import os
import stat

# 全局缓存字典,用于存储文件系统设备ID到statvfs对象的映射
STATVFS_CACHE = {}

def size_on_disk_cached(path: str) -> int:
    """
    计算常规文件在磁盘上的实际占用空间(Size on Disk),并缓存文件系统信息以提高性能。

    Args:
        path (str): 文件的路径。

    Returns:
        int: 文件在磁盘上的实际占用字节数。

    Raises:
        NotImplementedError: 如果路径不是常规文件。
    """
    st = os.lstat(path)

    if not stat.S_ISREG(st.st_mode):
        raise NotImplementedError(f"路径 '{path}' 不是常规文件,此函数仅支持常规文件。")

    # 使用文件的设备ID作为缓存键
    # 如果缓存中不存在,则调用 os.statvfs 并存储结果
    if not (st_vfs := STATVFS_CACHE.get(st.st_dev)):
        STATVFS_CACHE[st.st_dev] = (st_vfs := os.statvfs(path))

    block_size = st_vfs.f_frsize
    n_blocks, rem_bytes = divmod(st.st_size, block_size)
    return (n_blocks + bool(rem_bytes)) * block_size
登录后复制

通过使用 STATVFS_CACHE 字典,当函数被多次调用处理位于同一文件系统(即具有相同 st.st_dev)的文件时,os.statvfs 将只被调用一次,显著提高了性能。

总结

本文提供了一种使用 Python 准确计算常规文件在类 Unix 系统上“磁盘占用大小”的方法。通过理解文件系统块分配机制,并结合 os.lstat 和 os.statvfs,我们可以得到比文件逻辑大小更真实的磁盘占用估算。虽然该方法存在特定限制(如仅限于常规文件、类 Unix 系统、不包含所有元数据),但对于需要精确空间预估的场景(如创建磁盘镜像)而言,它提供了一个实用且高效的解决方案。在实际应用中,尤其是在处理大量文件时,利用缓存机制可以进一步优化性能。

以上就是使用 Python 计算文件在磁盘上的实际占用空间(Size on Disk)的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号