Linux如何避免生成僵尸进程-linux运维-PHP中文网

避免僵尸进程的核心是父进程需回收子进程退出状态，可通过wait()/waitpid()、SIGCHLD信号处理或二次fork实现；在容器中应使用tini等init替代品确保PID 1具备回收能力。

linux如何避免生成僵尸进程

在Linux系统里，避免生成僵尸进程的核心在于父进程必须妥善地“回收”其子进程的退出状态。这通常意味着父进程需要调用

wait()

登录后复制

或

waitpid()

登录后复制

系列函数来等待子进程终止，并获取其资源。如果父进程不这么做，已终止的子进程就会变成僵尸（

登录后复制

状态），它们虽然不再执行任何代码，但仍在进程表中占据一个位置，等待父进程来“收尸”。

Linux系统里，避免僵尸进程的根本方法，说白了，就是父进程得尽到责任，去“收割”它那些已经完成使命的子进程。这听起来有点残酷，但技术上就是这么回事。最直接的手段，当然是调用

wait()

登录后复制

或

waitpid()

登录后复制

。

我们写程序时，经常会用

fork()

登录后复制

来创建子进程。子进程干完活儿，自然会退出。这时候，如果父进程没能及时调用

wait()

登录后复制

或者

waitpid()

登录后复制

来获取子进程的退出状态，那么这个子进程虽然已经“死了”，但它的进程描述符还会留在系统里，状态就是

登录后复制

，也就是僵尸（Zombie）。它们不占用CPU，不占用内存，但会占用进程表中的一个条目，积少成多，就可能耗尽进程ID，导致新的进程无法创建。

解决方案

避免僵尸进程，主要有以下几种策略，可以根据应用场景选择：

使用

wait()

登录后复制

或
waitpid()
登录后复制
主动等待子进程：这是最直接、最符合逻辑的方法。父进程在创建子进程后，如果需要等待子进程完成任务，就应该调用

wait()

登录后复制

或

waitpid()

登录后复制

。

```
wait()
```
登录后复制
：会阻塞父进程，直到任意一个子进程终止。
```
waitpid(pid, &status, options)
```
登录后复制
：可以指定等待特定的子进程（
```
pid
```
登录后复制
），也可以通过
```
options
```
登录后复制
参数设置非阻塞模式（
```
WNOHANG
```
登录后复制
），这样父进程就可以在不阻塞的情况下周期性地检查子进程是否退出。

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/wait.h>

int main() {
    pid_t pid;
    pid = fork();

    if (pid < 0) {
        perror("fork failed");
        exit(EXIT_FAILURE);
    } else if (pid == 0) {
        // 子进程
        printf("Child process (PID: %d) is running...\n", getpid());
        sleep(2); // 模拟工作
        printf("Child process (PID: %d) exiting.\n", getpid());
        exit(EXIT_SUCCESS);
    } else {
        // 父进程
        printf("Parent process (PID: %d) waiting for child (PID: %d)...\n", getpid(), pid);
        int status;
        // 阻塞等待子进程，并回收其资源
        waitpid(pid, &status, 0);
        if (WIFEXITED(status)) {
            printf("Child process (PID: %d) exited with status %d.\n", pid, WEXITSTATUS(status));
        }
        printf("Parent process exiting.\n");
    }
    return 0;
}

登录后复制

SIGCHLD

登录后复制

信号处理器： 当子进程终止时，内核会向其父进程发送

SIGCHLD

登录后复制

信号。父进程可以注册一个信号处理器来捕获这个信号，并在处理器中调用

waitpid()

登录后复制

来清理子进程。这种方式是非阻塞的，父进程可以继续执行自己的任务，而不用专门等待子进程。

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <signal.h>
#include <sys/wait.h>

void sigchld_handler(int signo) {
    pid_t pid;
    int status;
    // 使用WNOHANG非阻塞地回收所有已终止的子进程
    while ((pid = waitpid(-1, &status, WNOHANG)) > 0) {
        printf("In handler: Child %d terminated.\n", pid);
    }
    // 注意：在信号处理函数中，应尽量只使用异步信号安全的函数。
    // printf在这里并非严格安全，但用于演示目的。
}

int main() {
    // 注册SIGCHLD信号处理器
    if (signal(SIGCHLD, sigchld_handler) == SIG_ERR) {
        perror("signal failed");
        exit(EXIT_FAILURE);
    }

    pid_t pid;
    for (int i = 0; i < 3; ++i) { // 创建3个子进程
        pid = fork();
        if (pid < 0) {
            perror("fork failed");
            exit(EXIT_FAILURE);
        } else if (pid == 0) {
            // 子进程
            printf("Child process (PID: %d) is running...\n", getpid());
            sleep(1 + i); // 模拟不同工作时间
            printf("Child process (PID: %d) exiting.\n", getpid());
            exit(EXIT_SUCCESS);
        }
    }

    // 父进程可以继续做自己的事情
    printf("Parent process (PID: %d) doing other work...\n", getpid());
    sleep(5); // 确保所有子进程都有机会退出并被回收
    printf("Parent process exiting.\n");

    return 0;
}

登录后复制

这里有个小陷阱，

SIGCHLD

登录后复制

信号是不可靠的，如果多个子进程几乎同时退出，可能只会发送一次

SIGCHLD

登录后复制

信号。所以，在信号处理器中循环调用

waitpid(-1, &status, WNOHANG)

登录后复制

直到没有子进程可回收，是一个更健壮的做法。

二次
```
fork
```
登录后复制
（Double-fork）技术（主要用于守护进程）： 这种方法稍微复杂，但对于需要长时间运行且脱离控制终端的守护进程（daemon）来说，它是一个非常可靠的解决方案。基本原理是：
- 父进程
```
fork
```
  登录后复制
  出第一个子进程。
- 父进程立即退出。这样，第一个子进程就变成了孤儿进程，会被
```
init
```
  登录后复制
  进程（PID 1）收养。
- 第一个子进程再
```
fork
```
  登录后复制
  出第二个子进程。
- 第一个子进程立即退出。
- 这样，第二个子进程也成了孤儿进程，再次被
```
init
```
  登录后复制
  进程收养。
- 由于
```
init
```
  登录后复制
  进程总是会等待并回收它的子进程，所以第二个子进程即使退出，也不会变成僵尸进程。而第一个子进程退出时，也会被
```
init
```
  登录后复制
  回收。最终，原始的父进程也退出了，所有相关的进程都会被妥善处理。
这种方式巧妙地利用了
```
init
```
登录后复制
进程的特性，将子进程的回收责任转嫁给了系统。

如何有效识别并定位系统中的僵尸进程？

识别系统中的僵尸进程其实并不复杂，关键是知道看什么、用什么工具。我个人最常用的就是

ps

登录后复制

命令，简单直接。

当你怀疑系统里有僵尸进程，或者想检查一下是否有未清理的“遗留物”时，可以打开终端，敲入：

ps aux | grep 'Z'

登录后复制

或者更精确一点，直接看进程状态：

ps -eo pid,ppid,stat,cmd | grep Z

登录后复制

这条命令会列出所有处于

登录后复制

状态（即僵尸状态）的进程。

```
pid
```
登录后复制
：进程ID。
```
ppid
```
登录后复制
：父进程ID。这非常关键，因为僵尸进程的清理责任在于它的父进程。
```
stat
```
登录后复制
：进程状态，
```
Z
```
登录后复制
就表示僵尸。
```
cmd
```
登录后复制
：通常对于僵尸进程，
```
cmd
```
登录后复制
列会显示为
```
<defunct>
```
登录后复制
，这正是它们“死亡”的标志。

通过

ppid

登录后复制

，你就能知道是哪个父进程没有尽到回收的责任。有时候，你会发现一些父进程本身也已经退出了，这时候僵尸进程的父进程就变成了

init

登录后复制

（PID 1），但通常这不意味着

init

登录后复制

没有回收，而是僵尸进程在父进程退出前就已经存在，然后

init

登录后复制

收养了它，但它依然是僵尸，直到

init

登录后复制

有机会回收它。当然，

init

登录后复制

进程作为系统的“总管”，会负责清理所有孤儿进程。所以，如果看到父进程是

登录后复制

的僵尸，那通常是暂时的，或者说明

init

登录后复制

本身在某些情况下也来不及处理。但更多时候，僵尸进程的父进程是某个正在运行的用户程序。

另一个查看工具是

top

登录后复制

。在

top

登录后复制

界面，你可以看到

Tasks

登录后复制

行，其中会显示僵尸（zombie）进程的数量。如果这个数字不为零，那就说明系统里有僵尸进程。虽然

top

登录后复制

不会直接列出僵尸进程的详细信息，但它能给你一个快速的概览。

理解这些工具和它们的输出，能让你快速定位问题，然后就可以去检查对应的父进程代码，看看是不是缺少了

wait()

登录后复制

或

SIGCHLD

登录后复制

处理。

守护进程（Daemon）化如何从根本上杜绝僵尸进程？

守护进程化，尤其是采用“二次

fork

登录后复制

”的经典方案，确实是一种从根本上解决僵尸进程问题的有效策略，尤其适用于那些需要在后台长期运行、不依赖于终端的服务。我个人在开发一些后台服务时，几乎都会考虑这种模式。

它的原理很巧妙，利用了Linux进程管理的一个核心特性：所有孤儿进程最终都会被

init

登录后复制

进程（PID 1）收养。而

init

登录后复制

进程，作为系统的第一个进程，它的一个重要职责就是定期
wait()
登录后复制
并回收所有被它收养的孤儿进程。

NameGPT名称生成器

免费AI公司名称生成器，AI在线生成企业名称，注册公司名称起名大全。

查看详情

让我们一步步分解“二次

fork

登录后复制

”的流程：

第一次
```
fork
```
登录后复制
：
- 原始父进程（通常是你从终端启动的程序）
```
fork
```
  登录后复制
  出一个子进程A。
- 原始父进程立即
```
exit()
```
  登录后复制
  。
- 结果： 子进程A失去了它的父进程，成为了一个孤儿进程。此时，操作系统会将子进程A的父进程ID（PPID）设置为1，也就是说，
```
init
```
  登录后复制
  进程收养了子进程A。
子进程A的退出与清理：
- 由于子进程A现在被
```
init
```
  登录后复制
  收养，当子进程A完成它的任务并退出时，
```
init
```
  登录后复制
  进程会负责调用
```
wait()
```
  登录后复制
  来回收它，防止子进程A变成僵尸。
第二次
```
fork
```
登录后复制
：
- 在子进程A中，再次
```
fork
```
  登录后复制
  出一个子进程B。
- 子进程A立即
```
exit()
```
  登录后复制
  。
- 结果： 子进程B失去了它的父进程（子进程A），再次成为一个孤儿进程。同样，
```
init
```
  登录后复制
  进程会收养子进程B，将其PPID设置为1。
子进程B的持续运行：
- 子进程B现在是真正需要长期运行的守护进程。它已经完全脱离了原始的控制终端，并且它的父进程是
```
init
```
  登录后复制
  。
- 结果： 当子进程B在未来的某个时刻退出时，
```
init
```
  登录后复制
  进程会负责回收它，确保它不会变成僵尸进程。

通过这个两步

fork

登录后复制

的过程，我们成功地将所有可能产生僵尸进程的风险都转嫁给了

init

登录后复制

进程。

init

登录后复制

进程是系统中最可靠的进程回收者，它几乎不会出现不回收子进程的情况。

除了解决僵尸进程问题，二次

fork

登录后复制

还带来其他好处：

脱离控制终端： 第一次
```
fork
```
登录后复制
后父进程退出，使得子进程脱离了终端。
成为会话组长： 通常还会调用
```
setsid()
```
登录后复制
来创建一个新的会话，使进程成为会话组长，进一步脱离终端控制。

所以，对于那些需要后台稳定运行、不希望在进程表中看到僵尸进程的服务，二次

fork

登录后复制

是一个非常成熟且可靠的解决方案。

容器化环境下，僵尸进程的管理与传统方式有何异同？

容器化环境，比如Docker或Kubernetes，给进程管理带来了一些独特的挑战，尤其是在僵尸进程处理上。这不像传统虚拟机那样，只是一个完整的Linux实例。在容器里，很多时候我们跑的只是一个应用程序，而这个应用程序可能就成了容器里的PID 1。

核心差异在于PID 1的角色：

在传统的Linux系统里，PID 1是

init

登录后复制

系统（如

systemd

登录后复制

、

sysvinit

登录后复制

等），它肩负着启动、管理和回收所有进程的重任，包括清理僵尸进程。它总是会

wait()

登录后复制

它的子进程。

但在很多容器里，如果你直接以

cmd

登录后复制

或

ENTRYPOINT

登录后复制

启动你的应用程序，那么你的应用程序就成了容器内部的PID 1。问题就出在这里：

你的应用程序通常不是设计来作为
init
登录后复制
系统运行的。它不知道如何
```
wait()
```
登录后复制
并回收它可能创建的子进程（如果它有创建子进程的话）。
如果你的应用程序又
```
fork
```
登录后复制
出子进程，而这些子进程退出后，你的应用程序（作为PID 1）没有调用
```
wait()
```
登录后复制
来回收它们，那么这些子进程就会变成僵尸进程，并且会一直存在，因为容器里没有真正的
```
init
```
登录后复制
进程来收养和清理它们。

这在容器化环境中是一个非常常见的问题，尤其是在一些老旧的应用或者编写不规范的应用中。僵尸进程虽然不消耗太多资源，但它们会占用进程ID，如果数量过多，最终可能导致容器无法创建新的进程，从而崩溃。

解决方案在容器化环境下的演变：

为了解决容器中PID 1的僵尸进程问题，社区发展出了一些专门的工具：

使用
```
init
```
登录后复制
进程替代品： 这是最推荐的做法。Docker官方推荐使用
```
tini
```
登录后复制
（或
```
dumb-init
```
登录后复制
等类似工具）作为容器的
```
ENTRYPOINT
```
登录后复制
。
- ```
tini
```
  登录后复制
  是一个非常轻量级的
```
init
```
  登录后复制
  进程，它会成为容器内的PID 1。
- 你的应用程序则作为
```
tini
```
  登录后复制
  的子进程启动。
- ```
tini
```
  登录后复制
  会负责
```
wait()
```
  登录后复制
  并回收所有它（以及它子进程）的子进程，包括你的应用程序可能创建的僵尸进程。
- 这样，即使你的应用程序没有正确处理子进程，
```
tini
```
  登录后复制
  也会在后台默默地帮你清理。
在Dockerfile中，通常是这样配置：
```
ENTRYPOINT ["/usr/bin/tini", "--"]
```
登录后复制
```
CMD ["your_application_command", "arg1", "arg2"]
```
登录后复制
确保应用程序正确处理子进程： 如果你的应用程序确实需要
```
fork
```
登录后复制
子进程，那么无论是否在容器中，都应该遵循前面提到的最佳实践：
- 使用
```
waitpid()
```
  登录后复制
  主动回收。
- 注册
```
SIGCHLD
```
  登录后复制
  信号处理器来异步回收。
- 在容器中，如果你的应用程序就是唯一的进程，且它不创建子进程，那么僵尸进程问题自然不存在。
避免在容器中运行多个不相关的进程： 尽量保持容器的单一职责原则。一个容器只运行一个主要应用程序。如果确实需要运行多个进程，考虑使用进程管理器（如
```
supervisord
```
登录后复制
），但要确保这个进程管理器本身能正确处理子进程回收。