微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 后端开发 > Golang > 正文

golang怎么高效处理大文件

藏色散人

发布： 2021-05-12 11:52:44

转载

2575人浏览过

下面由golang教程栏目给大家介绍golang高效处理大文件_使用Pandas分块处理大文件，希望对需要的朋友有所帮助！

使用Pandas分块处理大文件

问题：今天在处理快手的用户数据时，遇到了一个差不多600m的txt文本，用sublime打开都蹦了，我用pandas.read_table()去读，差不多花了近2分钟，最后打开发现差不多3千万行数据。这仅仅是打开，如果要处理不知得多费劲。

解决：我翻了一下文档，这一类读取文件的函数有两个参数：chunksize、iterator

原理就是不一次性把文件数据读入内存中，而是分多次。

1、指定chunksize分块读取文件

read_csv 和 read_table 有一个 chunksize 参数，用以指定一个块大小(每次读取多少行)，返回一个可迭代的 TextFileReader 对象。

table=pd.read_table(path+'kuaishou.txt',sep='t',chunksize=1000000)
for df in table:
    对df处理
    #如df.drop(columns=['page','video_id'],axis=1,inplace=True)
    #print(type(df),df.shape)打印看一下信息

登录后复制

我这里又对文件进行了划分，分成若干个子文件分别处理（没错，to_csv也同样有chunksize参数）

灵感PPT

灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT

226

灵感PPT

立即学习“go语言免费学习笔记（深入）”；

2、指定iterator=True

iterator=True同样返回的是TextFileReader对象

reader = pd.read_table('tmp.sv', sep='t', iterator=True)
df=reader.get_chunk(10000)
#通过get_chunk(size)，返回一个size行的块
#接着同样可以对df处理

登录后复制

直接看看pandas文档在这一方面的内容吧。

以上就是golang怎么高效处理大文件的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

Go语言中的泛型：理解其核心概念与价值 Go语言中interface{}类型的高效转换与处理 Go语言中实现多态行为：告别传统继承，拥抱接口与依赖注入 Go语言泛型概念解析：理解其在静态类型编程中的作用与意义 Go语言中同时运行多个Web服务器的实践指南

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：csdn网

上一篇：带你理解golang mysql数据库连接池下一篇：一个golang常见库cobra

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

一文详解通过php+roadrunner实现grpc服务端

2023-04-21 15:58:01
分享redis多维度排行思路

2023-04-21 16:01:59
linux jboss是什么

2023-04-23 10:10:52
linux中yum是什么意思

2023-04-23 10:15:45
分享一个PHP免费验证码（附代码）

2023-04-23 17:34:02
详述file_get_contents、getimagesize严重耗时问题

2023-04-23 17:38:02
用八个demo搞懂Go语言defer的五大特性

2023-04-23 17:40:51
图文详解如何在Vue项目中集成Ace代码编辑器

2023-04-24 10:52:44
聊聊前端怎么获取电池信息

2023-04-24 10:55:51
分享接口设计文档的12个注意点

2023-04-24 11:00:01

最新问题

如何用 Golang 测试网络请求性能_Golang HTTP 并发基准测试实例答案：Golang结合testing包和goroutine可高效进行HTTP并发基准测试。通过编写串行与并发测试函数，测量目标服务的吞吐量和延迟，使用BenchmarkHTTPSingle和BenchmarkHTTPConcurrent分别模拟单请求与高并发场景，控制批处理并发数避免资源耗尽，运行测试并分析ns/op指标，结合-benchtime延长测试提升准确性，进一步可通过复用Client、启用Keep-Alive、统计P95/P99延迟等优化测试精度，评估服务性能瓶颈。

2025-11-20 06:12:19

832

如何使用Golang在虚拟机中搭建开发环境_Golang 虚拟机开发环境实践首先在虚拟机中安装Ubuntu系统并配置VirtualBox，接着下载官方Go压缩包解压至/usr/local，配置PATH环境变量后验证goversion；然后设置GO111MODULE=on及GOPROXY代理，安装编辑器与开发工具；最后创建hello.go文件并运行输出成功信息，完成Golang环境搭建。

2025-11-20 03:23:29

591

如何用Golang实现RESTful API_Golang RESTful API开发指南使用Golang开发RESTfulAPI需先初始化项目并引入gorilla/mux路由库，定义User结构体作为数据模型，1.使用map模拟内存存储并预置用户数据，2.通过mux.Router注册GET、POST、PUT、DELETE路由，3.实现获取、创建、更新、删除用户的处理器函数，4.在main函数中启动HTTP服务，5.最后用curl测试各接口功能。

2025-11-20 02:51:23

839

Golang如何开发简单的项目管理系统_Golang 项目管理系统实践答案：基于Golang构建项目管理系统需合理分层，实现核心增删改查功能。采用cmd、internal、pkg等目录结构，定义Project模型并用SQLite存储，通过net/http暴露RESTful接口，支持创建、查询、更新、删除项目，结合测试与单文件编译部署，确保系统简洁可维护。

2025-11-20 01:51:17

998

Golang中的空接口有什么作用_Golang interface{}灵活使用技巧分享空接口interface{}可存储任意类型，常用于通用容器、JSON解析及反射操作，需通过类型断言或switch提取具体值以确保安全访问。

2025-11-20 01:01:19

338

Go语言中实现剪贴板操作：跨平台文本复制与粘贴教程本教程详细介绍了如何在Go语言应用中实现系统剪贴板的文本复制与粘贴功能。主要探讨了atotto/clipboard库，它为命令行工具提供了跨平台（Windows,macOS,Linux）的解决方案，并提供了详细的代码示例。同时，也提及了glfw3库在图形界面应用中进行剪贴板操作的用法，帮助开发者根据应用场景选择合适的实现方式。

2025-11-19 23:41:12

469

Go语言中实现CSV全字段强制引用：使用altcsv库的教程本教程旨在解决Go语言标准库encoding/csv在处理CSV文件时，无法便捷地强制所有字段都被引号包围的问题。通过介绍并演示第三方库altcsv，我们将学习如何利用其AllQuotes选项轻松实现CSV文件的全字段引用写入，同时保持与标准库的兼容性，从而提高数据导出的一致性和规范性。

2025-11-19 22:45:13

992

Go语言中Range循环与切片元素修改的深度解析本文深入探讨了Go语言中`for...range`循环遍历切片时，对元素进行修改不生效的常见问题。核心原因在于`range`循环在某些情况下会创建元素的副本，导致对副本的修改无法反映到原始切片。文章将通过具体代码示例，详细分析这一机制，并提供两种有效的解决方案：通过索引直接访问切片元素，或优化函数设计使其返回修改后的值，确保数据正确更新。

2025-11-19 21:09:02

910

GoLang 实现 HTTP 断点续传下载教程本教程详细阐述如何使用Go语言实现支持断点续传的大文件下载功能。文章深入解析HTTP/1.1协议中的Range请求机制，指导读者如何通过操作HTTP头、获取本地文件大小以及以追加模式写入数据来构建一个高效且健壮的下载程序，确保下载过程的可恢复性。

2025-11-19 19:29:01

330

Go SSH与Cisco设备通信：Pty配置优化解决长命令发送问题本文详细阐述了使用Go语言SSH库连接Cisco设备时，发送长命令可能出现的截断问题及其解决方案。通过分析GoSSHRequestPty函数的参数配置，揭示了终端宽度设置不当是导致命令被错误分割的根本原因，并提供了正确的Pty尺寸配置方法，确保长命令能够完整无误地发送和执行。

2025-11-19 19:06:05

931

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Go 教程

18374次学习
收藏
Pandas 教程

7276次学习
收藏
Go语言实战之 GraphQL

7303次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部