Fonctionnalités d'Amazon SageMaker HyperPod

Mettez à l’échelle et accélérez le développement de modèles d’IA générative à l’aide de milliers d’accélérateurs d’IA

Gouvernance des tâches

Amazon SageMaker HyperPod offre une visibilité et un contrôle complets sur l’allocation des ressources de calcul entre les tâches de développement de modèles d’IA générative, telles que l’entraînement et l’inférence. SageMaker HyperPod gère automatiquement les files de tâches, ce qui garantit que les tâches les plus stratégiques sont priorisées, tout en utilisant plus efficacement les ressources de calcul pour réduire les coûts de développement des modèles. En quelques brèves étapes, les administrateurs peuvent définir les priorités des différentes tâches et définir des limites quant au nombre de ressources de calcul que chaque équipe ou projet peut utiliser. Les scientifiques des données et les développeurs créent ensuite des tâches (par exemple, une séance d’entraînement, l’optimisation d’un modèle particulier ou la réalisation de prévisions sur un modèle entraîné) que SageMaker HyperPod exécute automatiquement, conformément aux limites de ressources de calcul et aux priorités définies par l’administrateur. Lorsqu’une tâche hautement prioritaire doit être exécutée immédiatement, mais que toutes les ressources de calcul sont utilisées, SageMaker HyperPod libère automatiquement les ressources de calcul destinées aux tâches moins prioritaires. En outre, SageMaker HyperPod utilise automatiquement les ressources de calcul inactives pour accélérer les tâches en attente. SageMaker HyperPod propose un tableau de bord dans lequel les administrateurs peuvent surveiller et auditer les tâches en cours d’exécution ou en attente de ressources de calcul.

En savoir plus

Plans de formation flexibles

Pour respecter vos délais et vos budgets de formation, SageMaker HyperPod vous aide à créer les plans d’entraînement les plus rentables qui utilisent les ressources de calcul provenant de plusieurs blocs de capacité de calcul. Une fois que vous avez approuvé les plans d’entraînement, SageMaker HyperPod alloue automatiquement l’infrastructure et exécute les tâches d’entraînement sur ces ressources de calcul sans aucune intervention manuelle. Vous économisez des semaines de gestion du processus d’entraînement afin d’aligner les tâches sur la disponibilité du calcul.

En savoir plus

 

Recettes optimisées pour personnaliser des modèles

Les recettes SageMaker HyperPod aident les scientifiques des données et les développeurs de tous niveaux bénéficient de performances de pointe tout en commençant rapidement à entraîner et à optimiser des modèles d’IA générative accessibles au public, notamment Llama, Mixtral, Mistral et DeepSeek. En outre, vous pouvez personnaliser les modèles de fondation Amazon Nova, notamment Nova Micro, Nova Lite et Nova Pro, à l’aide d’une suite de techniques comme l’ajustement supervisé (SFT), la distillation des connaissances, l’optimisation des préférences directes (DPO), l’optimisation des politiques proximales et l’entraînement préalable continu, avec la prise en charge d’options d’entraînement des modèles efficaces en matière de paramètres et complets pour SFT, la distillation et DPO. Chaque recette contient une pile de formation qui a été testée par AWS, éliminant ainsi des semaines de travail fastidieux à tester différentes configurations de modèles. Vous pouvez basculer entre les instances basées sur GPU et les instances basées sur AWS Trainium en modifiant la recette en une seule ligne, activer le point de contrôle automatique des modèles pour améliorer la résilience de l’entraînement et exécuter des charges de travail en production sur SageMaker HyperPod.

Entraînement distribué à hautes performances

SageMaker HyperPod accélère l’exécution d’entraînements distribués en répartissant automatiquement vos modèles et vos jeux de données d’entraînement entre les accélérateurs AWS. Il vous aide à optimiser votre tâche d’entraînement pour l’infrastructure réseau AWS et la topologie de cluster, mais aussi à rationaliser le point de contrôle des modèles en optimisant la fréquence d’enregistrement des points de contrôle, pour ainsi minimiser les frais au cours de l’entraînement.

Outils avancés d’observabilité et d’expérimentation

L’observabilité de SageMaker HyperPod fournit un tableau de bord unifié et pré-configuré dans Amazon Managed Grafana, les données de surveillance étant automatiquement publiées dans un espace de travail Amazon Managed Prometheus. Vous pouvez consulter les métriques de performance en temps réel, l’utilisation des ressources et l’état du cluster dans une vue unique, ce qui permet aux équipes de détecter rapidement les goulots d’étranglement, d’éviter des retards coûteux et d’optimiser les ressources de calcul. HyperPod est également intégré à Amazon CloudWatch Container Insights, ce qui fournit des données analytiques plus détaillées sur les performances, l’état et l’utilisation des clusters. Le TensorBoard géré dans SageMaker vous permet de gagner du temps sur le développement en visualisant l’architecture du modèle afin d’identifier et de résoudre les problèmes de convergence. MLflow géré dans SageMaker vous permet de gérer efficacement les expériences à grande échelle.

Photo

Planification et orchestration des charges de travail

L’interface utilisateur de SageMaker HyperPod est hautement personnalisable à l’aide de Slurm ou d’Amazon Elastic Kubernetes Service (Amazon EKS). Vous pouvez sélectionner et installer tous les cadres ou outils nécessaires. Tous les clusters sont provisionnés avec le type et le nombre d'instances que vous choisissez, et ils sont conservés pour votre utilisation sur toutes les charges de travail. Grâce à la prise en charge d’Amazon EKS dans SageMaker HyperPod, vous pouvez gérer et exploiter des clusters avec une expérience d’administrateur cohérente basée sur Kubernetes. Gérez et adaptez efficacement les charges de travail, de l’entraînement à l’inférence en passant par le réglage. Vous pouvez également partager la capacité de calcul et passer de Slurm à Amazon EKS pour différents types de charges de travail.

Surveillance de l'état et réparation du cluster automatiques

Si des instances deviennent défectueuses pendant une charge de travail de développement d’un modèle, SageMaker HyperPod détecte et résout automatiquement les problèmes d’infrastructure. Pour détecter le matériel défectueux, SageMaker HyperPod effectue régulièrement une série de surveillances de l’état de l’accélérateur et du réseau.

Accélérer les déploiements de modèles « open-weight » à partir de SageMaker Jumpstart

SageMaker HyperPod rationalise automatiquement le déploiement des modèles de fondation «open-weight » issus de SageMaker JumpStart et des modèles ajustés issus de S3 et FSx. HyperPod provisionne automatiquement l’infrastructure requise et configure les points de terminaison, éliminant ainsi l’allocation manuelle. Grâce à la gouvernance des tâches HyperPod, le trafic des points de terminaison est surveillé en permanence et ajuste de manière dynamique les ressources de calcul, tout en publiant simultanément des métriques de performance complètes sur le tableau de bord d’observabilité pour une surveillance et une optimisation en temps réel.

Photo