使用sort与uniq或awk可去除Linux文本文件重复行。先排序使相同行相邻,再用uniq过滤,命令为sort file.txt | uniq > output.txt;或用awk通过数组记录已出现行实现去重,命令为awk '!seen[$0]++' file.txt > output.txt。

如果您在处理文本文件时发现其中包含大量重复的行,这可能会影响数据的准确性和后续分析的效率。通过去除这些重复内容,可以有效提升文件质量。以下是几种在Linux系统中去除文本文件重复行的方法。
本文运行环境:Dell XPS 13,Ubuntu 24.04
该方法先对文件内容进行排序,使相同行相邻,再利用uniq命令过滤连续的重复行,从而实现去重目的。
1、打开终端,执行以下命令对文件进行排序并去除相邻重复行:sort file.txt | uniq > output.txt。
2、若希望直接修改原文件,可使用重定向配合临时文件:sort file.txt | uniq > temp.txt && mv temp.txt file.txt。
3、如需统计每行出现的次数,可在uniq后添加-c选项:sort file.txt | uniq -c。
awk是一种强大的文本处理工具,能够逐行读取文件并通过数组记录已出现的行,从而识别并跳过重复内容。
1、运行如下命令,利用awk的关联数组特性去除重复行:awk '!seen[$0]++' file.txt > output.txt。
2、若需要保留最后一次出现的重复行而非第一次,可采用反向处理方式:awk '{lines[NR]=$0; count[$0]=NR} END {for(i=1;i。
sed本身不擅长全局状态管理,但可通过与shell循环结合的方式逐行检查并删除后续重复项,适用于小规模文件。
1、执行以下复合命令,逐行匹配并删除后面相同的行:sed -i '$!N; /^\(.*\)\n\1$/!P; D' <(sort file.txt)。
2、将排序和sed处理分离,先排序再用sed简化逻辑:sort file.txt | sed '$!N; /^\(.*\)\n\1$/!P; D' > output.txt。
perl语言在正则表达式和文本处理方面表现优异,适合编写简洁的去重脚本,能够在单行命令中完成复杂逻辑。
1、使用perl读取每一行,并借助哈希表记录已出现的行:perl -ne 'print unless $seen{$_}++' file.txt > output.txt。
2、若需忽略行首尾空白字符后再比较,可调整为:perl -lne 's/^\s+|\s+$//g; print unless $seen{$_}++' file.txt > output.txt。
以上就是LINUX怎么去除文本文件中的重复行_Linux文本文件去重方法的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号