Amazon SageMaker HyperPod 现已支持为 Slurm 集群配置基于 AMI 的节点生命周期

发布于: 2026年5月7日

Amazon SageMaker HyperPod 现已支持基于 AMI 的配置,可为 Slurm 集群节点预置生产级环境所需的软件与配置,从而运行人工智能/机器学习训练工作负载。用户无需下载、配置生命周期配置脚本,也无需将该脚本上传到 Amazon S3。准备集群所需的运维步骤较少,并且无需在节点预置过程中执行生命周期配置脚本,这大大缩短了集群创建时间,使您能够更快地启动运行作业。

基于 AMI 的配置包括 Docker、Enroot 和 Pyxis 等必备软件,以及 Slurm 计费统计、SSH 密钥生成、Slurm 日志轮换和用户主目录设置等配置。要启用基于 AMI 的配置,请在使用 CreateCluster API 创建集群时,从实例组配置中省略 LifeCycleConfig 块,或者在使用 SageMaker AI 控制台时,在自定义设置的生命周期脚本下选择“无”。要在基于 AMI 的配置基准的基础上进一步自定义,可以提供扩展脚本,这样一来,您只需专注要添加的功能和软件即可,例如用户配置、可观测性或 LDAP 集成。

通过 API 和 SageMaker AI 控制台创建集群时,均可配置扩展脚本。借助 CreateCluster API,可在 LifeCycleConfig 块中指定新的 OnInitComplete 参数和 SourceS3Uri。通过控制台,可在自定义设置的“S3 中的扩展脚本文件”字段中,为扩展脚本提供 S3 URI。对于需要完全控制预置的高级使用案例,API 和 SageMaker AI 控制台仍完全支持自定义生命周期配置脚本。

这项功能已在提供 SageMaker HyperPod 的所有 AWS 区域推出。要开始使用基于 AMI 的节点生命周期配置创建 HyperPod Slurm 集群,请参阅《SageMaker AI 开发人员指南》中的通过 AWS CLI 开始使用 SageMaker HyperPod通过 SageMaker AI 控制台开始使用 SageMaker HyperPod