
Hadoop作业调度的操作流程主要包含以下步骤:
1. 任务提交
- 用户通过命令行或者API把MapReduce任务发送至YARN(Yet Another Resource Negotiator)。
- YARN接收任务后构建一个ApplicationMaster进程。
2. 资源调配
- ResourceManager掌控整个集群资源的分配与管理。
- ResourceManager依据任务需求及当前集群资源情况,为ApplicationMaster分配必需的资源(比如内存、CPU核心数等)。
3. ApplicationMaster初始化
- ApplicationMaster在ResourceManager分配的资源上启动,并且开始与ResourceManager交互。
- ApplicationMaster的核心任务是协调和管控任务的运行。
4. 任务划分与指派
- ApplicationMaster把MapReduce任务拆解为多个Map任务和Reduce任务。
- ApplicationMaster把这些任务分派给集群里的NodeManager节点。
5. 任务执行
- NodeManager在接收到任务之后,在其管控的容器(Container)里启动任务执行。
- 任务执行期间,NodeManager会监测任务的进展和资源使用情况,并向ApplicationMaster汇报状态。
6. 进展监控与异常恢复
- ApplicationMaster定时查看任务的进展,如果某个任务失败或者长时间未完成,ApplicationMaster会再次安排该任务。
- ResourceManager也会监控ApplicationMaster的健康状态,如果ApplicationMaster崩溃,ResourceManager会重启一个新的ApplicationMaster。
7. 任务结束
- 所有Map和Reduce任务都成功完成后,ApplicationMaster会告知ResourceManager任务已完成。
- ResourceManager释放分配给ApplicationMaster的资源,并将任务状态更新为“已完成”。
8. 结果收集
- ApplicationMaster负责搜集各任务的输出结果,并整合成最终的输出文件。
- 用户可以通过命令行或API获取任务的输出结果。
调度机制
Hadoop提供了多种调度机制,包括:
-
FIFO(First In First Out):按任务提交的顺序进行调度。
-
Capacity Scheduler:基于队列容量进行调度,支持多租户环境。
-
Fair Scheduler:保证所有任务公平地共享集群资源。
参数设定
调度器的行为能够通过配置文件进行修改,例如:
- yarn.resourcemanager.scheduler.class:指定所用的调度器类型。
- mapreduce.job.queuename:指定任务提交到的队列名称。
借助以上流程,Hadoop可以高效地管理和调度分布式计算任务,保障资源的有效利用以及任务的成功执行。
以上就是Hadoop作业调度是如何工作的的详细内容,更多请关注php中文网其它相关文章!