Características de Amazon SageMaker HyperPod
Escale y acelere el desarrollo de los modelos de IA generativa en miles de aceleradores de IA.
Gobernanza de tareas
Amazon SageMaker HyperPod ofrece visibilidad y control completos sobre la asignación de recursos de computación en todas las etapas del desarrollo de modelos de IA generativa, como el entrenamiento y la inferencia. SageMaker HyperPod administra automáticamente las colas de tareas, lo que garantiza que se prioricen las tareas más críticas y, al mismo tiempo, utiliza los recursos de computación de manera más eficiente para reducir los costos de desarrollo de modelos. En pocos pasos, los administradores pueden definir las prioridades de las diferentes tareas y establecer límites para la cantidad de recursos de computación que puede usar cada equipo o proyecto. A continuación, los científicos de datos y los desarrolladores crean tareas (por ejemplo, una ejecución del entrenamiento, el refinamiento de un modelo en particular o la realización de predicciones en un modelo entrenado) que SageMaker HyperPod ejecuta automáticamente, respetando los límites de recursos de computación y las prioridades que el administrador establece. Cuando una tarea de alta prioridad debe completarse inmediatamente, pero todos los recursos de computación están en uso, SageMaker HyperPod libera de forma automática los recursos de computación de tareas de menor prioridad. Además, SageMaker HyperPod utiliza automáticamente los recursos de computación inactivos para acelerar las tareas en espera. SageMaker HyperPod ofrece un panel en el que los administradores pueden supervisar y auditar las tareas que se están ejecutando o esperando recursos de computación.
Planes de entrenamiento flexibles
Para cumplir con los plazos y presupuestos de entrenamiento, SageMaker HyperPod lo ayuda a crear los planes de entrenamiento más rentables que utilizan los recursos de computación de varios bloques de capacidad de computación. Una vez que usted aprueba los planes de entrenamiento, SageMaker HyperPod aprovisiona automáticamente la infraestructura y ejecuta los trabajos de entrenamiento en estos recursos de computación sin necesidad alguna de intervención manual. Ahorra semanas de esfuerzo al administrar el proceso de entrenamiento para alinear los trabajos con la disponibilidad de computación.
Recetas optimizadas para personalizar modelos
Las recetas de SageMaker HyperPod ayudan a los científicos de datos y a los desarrolladores de todos los conjuntos de habilidades a beneficiarse de un rendimiento de vanguardia y, al mismo tiempo, empezar a entrenar y ajustar con rapidez los modelos de IA generativa disponibles al público, incluidos Llama, Mixtral, Mistral y DeepSeek. Además, puede personalizar los modelos fundacionales de Amazon Nova, incluidos Nova Micro, Nova Lite y Nova Pro, mediante un conjunto de técnicas que incluyen ajuste fino supervisado (SFT), destilación del conocimiento, optimización de preferencias directas (DPO), optimización de políticas próximas y entrenamiento previo continuo, con soporte para opciones de entrenamiento eficiente en parámetros como de entrenamiento del modelo completo en SFT, destilación y DPO. Cada receta incluye una pila de entrenamiento que AWS ha probado, lo que elimina semanas de tedioso trabajo de prueba de diferentes configuraciones de modelos. Puede cambiar entre instancias basadas en GPU e instancias basadas en AWS Trainium con un cambio de receta de una línea, y habilitar los puntos de control automatizados del modelo para mejorar la resiliencia del entrenamiento y ejecutar cargas de trabajo en producción en SageMaker HyperPod.
Entrenamiento distribuido de alto rendimiento
SageMaker HyperPod acelera el entrenamiento distribuido mediante la división automática de los modelos y conjuntos de datos de entrenamiento en los aceleradores de AWS. Lo ayuda a optimizar su trabajo de entrenamiento para la infraestructura de red y la topología de clústeres de AWS. Además, sirve para optimizar los puntos de control de los modelos, ya que mejora la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.
Herramientas avanzadas de observación y experimentación
La observabilidad de SageMaker HyperPod proporciona un panel unificado preconfigurado en Amazon Managed Grafana; los datos de supervisión se publican automáticamente en un espacio de trabajo de Prometheus administrado por Amazon. Puede ver las métricas de rendimiento en tiempo real, el uso de los recursos y el estado de los clústeres en una sola vista, lo que permite a los equipos detectar rápidamente los cuellos de botella, evitar demoras costosas y optimizar los recursos de computación. HyperPod también está integrado con Información de contenedores de Amazon CloudWatch, que proporciona información más detallada sobre el rendimiento, el estado y el uso de los clústeres. TensorBoard administrado en SageMaker ayuda a ahorrar tiempo de desarrollo, ya que le permite visualizar la arquitectura del modelo para identificar y solucionar problemas de convergencia. MLflow administrado en SageMaker le permite administrar los experimentos a escala de manera eficiente.

Programación y orquestación de la carga de trabajo
La interfaz de usuario de SageMaker HyperPod es altamente personalizable con Slurm o Amazon Elastic Kubernetes Service (Amazon EKS). Puede seleccionar e instalar los marcos o herramientas que necesite. Todos los clústeres se aprovisionan con el tipo y el número de instancias que elija, y se retienen para su uso en todas las cargas de trabajo. Gracias a la compatibilidad con Amazon EKS en SageMaker HyperPod, puede administrar y operar clústeres con una experiencia de administrador coherente basada en Kubernetes. Ejecute y escale las cargas de trabajo de manera eficiente, desde el entrenamiento hasta el ajuste y la inferencia. También, puede compartir la capacidad de cómputo y cambiar entre Slurm y Amazon EKS para diferentes tipos de cargas de trabajo.
Comprobación de estado y reparación automáticas del estado del clúster
Si alguna instancia se vuelve defectuosa durante la carga de trabajo de desarrollo de un modelo, SageMaker HyperPod detecta y soluciona automáticamente los problemas de infraestructura. Para detectar equipos defectuosos, SageMaker HyperPod ejecuta con regularidad una serie de comprobaciones de estado para el acelerador y la integridad de la red.
Acelere las implementaciones de modelos de peso abierto desde SageMaker Jumpstart
SageMaker HyperPod agiliza automáticamente la implementación de modelos fundacionales de peso abierto de SageMaker JumpStart y de modelos refinados de S3 y FSx. HyperPod aprovisiona automáticamente la infraestructura requerida y configura los puntos de enlace, lo que elimina el aprovisionamiento manual. Gracias a la gobernanza de tareas de HyperPod, el tráfico de los puntos de enlace se supervisa de forma continua y los recursos de computación se ajustan dinámicamente, mientras que al mismo tiempo se publican métricas de rendimiento completas en el panel de observabilidad para su supervisión y optimización en tiempo real.
