LINUX怎么去除文本文件中的重复行_Linux文本文件去重方法-LINUX-PHP中文网

LINUX怎么去除文本文件中的重复行_Linux文本文件去重方法

尼克

发布： 2025-10-22 09:45:02

原创

271人浏览过

使用sort与uniq或awk可去除Linux文本文件重复行。先排序使相同行相邻，再用uniq过滤，命令为sort file.txt | uniq > output.txt；或用awk通过数组记录已出现行实现去重，命令为awk '!seen[$0]++' file.txt > output.txt。

linux怎么去除文本文件中的重复行_linux文本文件去重方法

如果您在处理文本文件时发现其中包含大量重复的行，这可能会影响数据的准确性和后续分析的效率。通过去除这些重复内容，可以有效提升文件质量。以下是几种在Linux系统中去除文本文件重复行的方法。

本文运行环境：Dell XPS 13，Ubuntu 24.04

一、使用sort命令结合uniq去重

该方法先对文件内容进行排序，使相同行相邻，再利用uniq命令过滤连续的重复行，从而实现去重目的。

1、打开终端，执行以下命令对文件进行排序并去除相邻重复行：sort file.txt | uniq > output.txt。

2、若希望直接修改原文件，可使用重定向配合临时文件：sort file.txt | uniq > temp.txt && mv temp.txt file.txt。

3、如需统计每行出现的次数，可在uniq后添加-c选项：sort file.txt | uniq -c。

二、使用awk实现去重

awk是一种强大的文本处理工具，能够逐行读取文件并通过数组记录已出现的行，从而识别并跳过重复内容。

1、运行如下命令，利用awk的关联数组特性去除重复行：awk '!seen[$0]++' file.txt > output.txt。

2、若需要保留最后一次出现的重复行而非第一次，可采用反向处理方式：awk '{lines[NR]=$0; count[$0]=NR} END {for(i=1;i。

三、使用sed结合其他命令去重

sed本身不擅长全局状态管理，但可通过与shell循环结合的方式逐行检查并删除后续重复项，适用于小规模文件。

1、执行以下复合命令，逐行匹配并删除后面相同的行：sed -i '$!N; /^$.*$\n\1$/!P; D' <(sort file.txt)。

2、将排序和sed处理分离，先排序再用sed简化逻辑：sort file.txt | sed '$!N; /^$.*$\n\1$/!P; D' > output.txt。

四、利用perl脚本快速去重

perl语言在正则表达式和文本处理方面表现优异，适合编写简洁的去重脚本，能够在单行命令中完成复杂逻辑。

1、使用perl读取每一行，并借助哈希表记录已出现的行：perl -ne 'print unless $seen{$_}++' file.txt > output.txt。

2、若需忽略行首尾空白字符后再比较，可调整为：perl -lne 's/^\s+|\s+$//g; print unless $seen{$_}++' file.txt > output.txt。

以上就是LINUX怎么去除文本文件中的重复行_Linux文本文件去重方法的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

LINUX如何设置SSH免密登录_LINUX SSH免密码登录配置步骤 LINUX怎么查询一个文件是由哪个包安装的_Linux查询文件所属软件包方法 LINUX怎么使用tcpdump抓取网络包_Linux Tcpdump抓取网络包方法 LINUX怎么对文件内容进行排序_Linux文件内容排序方法 LINUX怎么查看某个进程的详细信息_Linux查看进程详细信息的命令