在内存小于文件大小的情况下,大文件中快速查找定位一行

php中文网
发布: 2016-06-23 14:18:56
原创
890人浏览过

内存 大文件

比如有一个文件
ABC   56
DEF   100
RET   300
...

文件有2列,第一列都是不重复的,第2列表示次数(当成一个数字就行了)。

如果文件大小为2G或者更大,内存只有1G的情况,如何快速定位到“ABC  56” 这一行。

请大拿们给个清晰点的解决方法。


回复讨论(解决方案)

没明白您是什么意思?
如果是打开文件想快速找到某一行的话,可以使用vi或者more将文件打开;
然后输入:   /ABC    回车就好了

fopen,再fscanf。
一次读一行就好啊。内存不会成为限制因素的。

有没有人知道啊?
如果是一行一行读,那效率就不行啦。
还有没有更快速的方法呢?
我的思路是建一张哈希表,然后根据哈希算法,再用那个哈希碰撞的原理去排重。
不知道各位有什么好的意见没

建hash表的话,岂不是要先对文件的内容进行hash?

可以用其他的工具来处理,未必一定要用算法。
比如awk:
awk '/ABC\t56/{ print NR}' file
可以获取匹配行的行号。

建议lz说下具体的需求,如果仅仅是获取行号的话,方案很多。
但是如果还有其他需求的话,类似awk这么做未必是最佳方案。

有没有人知道啊?
如果是一行一行读,那效率就不行啦。
还有没有更快速的方法呢?
我的思路是建一张哈希表,然后根据哈希算法,再用那个哈希碰撞的原理去排重。
不知道各位有什么好的意见没 那你不也得先一行一行读出来再哈希吗?

嫌一行一行读太慢,可以一块一块读


有没有人知道啊?
如果是一行一行读,那效率就不行啦。
还有没有更快速的方法呢?
我的思路是建一张哈希表,然后根据哈希算法,再用那个哈希碰撞的原理去排重。
不知道各位有什么好的意见没 那你不也得先一行一行读出来再哈希吗?

嫌一行一行读太慢,可以一块一块读

是的读块 比较符合你的需求

楼主可参考:
http://www.fantxi.com/blog/archives/php-read-large-file/

http://sjolzy.cn/php-large-file-read-operation.html

建hash表的话,岂不是要先对文件的内容进行hash?

可以用其他的工具来处理,未必一定要用算法。
比如awk:
awk '/ABC\t56/{ print NR}' file
可以获取匹配行的行号。

建议lz说下具体的需求,如果仅仅是获取行号的话,方案很多。
但是如果还有其他需求的话,类似awk这么做未必是最佳方案。

需求就是怎么能快速找到? 比如我想知道ABC后面的数字,或者DEF后面的数字...


有没有人知道啊?
如果是一行一行读,那效率就不行啦。
还有没有更快速的方法呢?
我的思路是建一张哈希表,然后根据哈希算法,再用那个哈希碰撞的原理去排重。
不知道各位有什么好的意见没 那你不也得先一行一行读出来再哈希吗?

嫌一行一行读太慢,可以一块一块读

内存怎么一块一块读呢? 能给个例子吗?

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号