亚马逊AWS官方博客
在 Amazon SageMaker HyperPod 上推出无检查点和弹性训练
今天,我们宣布在 Amazon SageMaker HyperPod 中推出两项全新的 AI 模型训练功能:无检查点训练 和 弹性训练。前者通过启用点对点状态恢复,减少了对传统基于检查点的恢复方式的依赖;后者则使 AI 工作负载能够基于资源可用性自动扩展。
- 无检查点训练 – 无检查点训练消除了中断性的检查点-重启循环,即使在发生故障时也能保持向前的训练势头,将恢复时间从数小时缩短至数分钟。加速您的 AI 模型开发,从开发周期中节省数天时间,并自信地将训练工作流扩展到数千个 AI 加速器。
- 弹性训练 – 弹性训练能最大化集群利用率。训练工作负载可自动扩展以使用空闲资源,也可在高优先级工作负载(如推理请求激增)时收缩以释放资源。每周可节省数小时的工程时间,无需再根据计算可用性手动重新配置训练作业。
这些新的训练技术意味着您的团队可以完全专注于提升模型性能,而无需花费时间管理训练基础设施,最终让您的 AI 模型更快地进入市场。通过消除传统的检查点依赖并充分利用可用资源,您可以显著缩短模型训练的完成时间。
无检查点训练:工作原理
传统的基于检查点的恢复具有以下连续的作业阶段:1) 作业终止和重启,2) 进程发现和网络设置,3) 检查点检索,4) 数据加载器初始化,以及 5) 恢复训练循环。当发生故障时,每个阶段都可能成为瓶颈,在自我管理的训练集群上,训练恢复可能耗时长达一小时。整个集群必须等待每个阶段完成后才能恢复训练。这可能导致整个训练集群在恢复操作期间处于闲置状态,从而增加成本并延长上市时间。
无检查点训练通过在整个训练集群中保持持续的模型状态保存,完全消除了这一瓶颈。当故障发生时,系统通过使用健康的节点即时恢复,避免了需要重启整个作业的基于检查点的恢复方式。因此,无检查点训练能在数分钟内实现故障恢复。

无检查点训练为逐步采用而设计,并建立在四个协同工作的核心组件之上:1) 集合通信初始化优化,2) 支持缓存的内存映射数据加载,3) 进程内恢复,4) 无检查点的点对点状态复制。这些组件通过用于启动作业的 HyperPod 训练操作符进行协调管理。每个组件优化了恢复过程中的一个特定步骤,它们共同实现了对基础设施故障的自动检测和在数分钟内恢复,且无需人工干预,即使面对数千个 AI 加速器也是如此。您可以在训练规模扩展时逐步启用这些功能。
最新的 Amazon Nova 模型就是在数万个加速器上使用此技术训练的。此外,基于对 16 个 GPU 到超过 2000 个 GPU 集群规模的内部研究,无检查点训练在恢复时间上展现出显著改进,与传统基于检查点的恢复相比,停机时间减少了 80% 以上。
要了解更多信息,请访问 Amazon SageMaker AI 开发者指南中的 HyperPod 无检查点训练部分
弹性训练:工作原理
在运行不同类型现代 AI 工作负载的集群上,加速器的可用性可能在全天持续变化,例如短时训练任务完成、推理请求激增或消退,或实验完成释放资源等。尽管 AI 加速器的可用性是动态变化的,但传统的训练工作负载仍被锁定在初始的计算分配中,无法在没有人工干预的情况下利用空闲的加速器。这种僵化性导致宝贵的 GPU 容量无法使用,并使组织无法最大限度地利用其基础设施投资。
弹性训练改变了训练工作负载与集群资源的交互方式。训练作业可以自动扩展以利用可用的加速器,并在其他地方需要资源时顺利收缩,同时保持训练质量。
工作负载弹性是通过 HyperPod 训练操作符实现的,该操作符通过与 Kubernetes 控制面板和资源调度器集成来协调扩缩决策。它通过三个主要渠道持续监控集群状态:容器组 (pod) 生命周期事件、节点可用性变化以及资源调度器优先级信号。这种全面的监控能力实现了近乎即时地检测扩缩机会,无论是来自新可用的资源,还是来自更高优先级工作负载的请求。
扩缩机制依赖于添加和移除数据并行副本。当额外的计算资源可用时,新的数据并行副本会加入训练作业,从而加快吞吐量。反,在缩容事件中(例如当更高优先级的工作负载请求资源时),系统通过移除副本而非终止整个作业来缩减规模,允许训练以降低的容量继续进行。
在不同的规模下,系统会保持全局批次大小不变并调整学习率,防止模型收敛受到不利影响。这使得工作负载能够动态扩展或收缩,以利用可用的 AI 加速器,而无需任何人工干预。
您可以通过 HyperPod 配方,为包括 Llama 和 GPT-OSS 在内的公开基础模型 (FM) 启动弹性训练。此外,您可以修改 PyTorch 训练脚本以添加弹性事件处理程序,从而使作业能够动态扩展。
要了解更多信息,请访问 Amazon SageMaker AI 开发者指南中的 HyperPod 弹性训练。要开始使用,请在 AWS GitHub 存储库 中查找可用的 HyperPod 配方。
现已推出
这两项功能已在 Amazon SageMaker HyperPod 支持的所有区域开放。您使用这些训练技术无需额外付费。要了解更多信息,请查阅 SageMaker HyperPod 产品页面和 SageMaker AI 定价页面。
不妨尝试一下,并将反馈发送给 AWS re:Post for SageMaker 或通过常见的 AWS Support 联系人发送。
— Channy