AWS Trainium
Trainium : spécialement conçu pour une IA haute performance et économique à grande échelle
Pourquoi choisir Trainium ?
AWS Trainium est une famille d’accélérateurs d’IA spécialement conçus (Trainium1, Trainium2 et Trainium3) conçus pour offrir des performances évolutives et une rentabilité en matière de formation et d’inférence sur un large éventail de charges de travail d’IA générative.
La famille AWS Trainium
Trainium1
La puce AWS Trainium de première génération alimente les instances Amazon Elastic Compute Cloud (Amazon EC2) Trn1, permettant de réduire jusqu’à 50 % les coûts d’entraînement par rapport aux instances Amazon EC2 comparables. De nombreux clients, dont Ricoh, Karakuri, SplashMusic et Arcee AI, tirent parti des avantages en termes de performances et de coûts des instances Trn1.
Trainium2
La puce AWS Trainium2 fournit des performances jusqu’à quatre fois supérieures à celles de la puce Trainium de première génération. Les instances Amazon EC2 Trn2 basées sur Trainium2 et les UltraServersTrn2, sont spécialement conçues pour l’IA générative et offrent un rapport coût‑performance supérieur de 30 à 40 % par rapport aux instances Trn2 EC2 et P5e basées sur GPU. Les instances Trn2 comportent jusqu’à 16 puces Trainium2, et les UltraServers Trn2 comportent jusqu’à 64puces Trainium2 interconnectées à NeuronLink, notre interconnexion puce à puce propriétaire. Vous pouvez utiliser les instances Trn2 et UltraServers pour entraîner et déployer les modèles les plus exigeants, notamment les grands modèles de langage (LLM), les modèles multimodaux et les transformeurs de diffusion, afin de créer un large éventail d’applications d’IA générative de nouvelle génération.
Trainium3
La première puce IA 3 nm d’AWS est spécialement conçue pour offrir la meilleure rentabilité pour les applications de nouvelle génération dans les domaines de l’IA agentique, du raisonnement et de la génération vidéo. La puce AWS Trainium3 offre des performances de calcul deux fois supérieures, atteignant 2,52 pétaflops (PFLOPs) en calcul FP8, et augmente la capacité de mémoire de 1,5 fois ainsi que la bande passante de 1,7 fois par rapport à Trainium2, pour atteindre 144 Go de mémoire HBM3e et 4,9 To/s de bande passante mémoire. Les serveurs Trn3 UltraServers, équipés de Trainium3, offrent des performances jusqu’à 4,4 fois supérieures, une bande passante mémoire 3,9 fois supérieure et une efficacité énergétique plus de 4 fois supérieure par rapport aux Trn2 UltraServers. Trainium3 est conçu pour les charges de travail denses et parallèles destinées à des experts, avec des types de données avancés (MXFP8 et MXFP4) et un meilleur équilibre mémoire-calcul pour les tâches en temps réel, multimodales et de raisonnement.
Conçu pour les développeurs
Les nouveaux serveurs UltraServers basés sur Trainium3 sont conçus pour les chercheurs en IA et optimisés par le kit SDK AWS Neuron afin de débloquer des performances révolutionnaires.
Grâce à l’intégration native de PyTorch, les développeurs peuvent s’entraîner et déployer sans modifier une seule ligne de code. Pour les ingénieurs de performance en IA, nous avons activé un accès plus approfondi à Trainium3, afin que les développeurs puissent optimiser les performances, personnaliser les noyaux et pousser vos modèles encore plus loin. Parce que l’innovation repose sur l’ouverture, nous nous engageons à collaborer avec nos développeurs par le biais d’outils et de ressources open source.
Pour en savoir plus, rendez-vous sur Amazon EC2 Trn3 UltraServers et découvrez le kit SDK AWS Neuron.
Avantages
Les serveurs Trn3 UltraServers intègrent les dernières innovations en matière de technologie UltraServer évolutive, avec NeuronSwitch-v1 pour des collectifs « all-to-all » plus rapides sur un maximum de 144 puces Trainium3. L’UltraServer Trn3 offre jusqu’à 20,7 To de HBM3e, une bande passante mémoire de 706 To/s et 362 MXFP8 PFLOPs, offrant jusqu’à 4,4 fois plus de performances et une efficacité énergétique plus de 4 fois supérieure à celle des UltraServers Trn2. Trn3 fournit les plus hautes performances au moindre coût pour l’entraînement et l’inférence avec les derniers modèles MoE à paramètres 1T+ et de type de raisonnement, et augmente considérablement le débit pour le GPT-OSS servant à grande échelle par rapport aux instances basées sur Trainium2.
Les serveurs Trn2 UltraServer restent une option performante et économique pour l’entraînement de l’IA générative et l’inférence de modèles comportant jusqu’à 1 T de paramètres. Les instances Trn2 intègrent jusqu’à 16 puces Trainium2, tandis que les serveurs Trn2 UltraServer intègrent jusqu’à 64 puces Trainium2 reliées par NeuronLink, une interconnexion puce-à-puce propriétaire.
Les instances Trn1 intègrent jusqu’à 16 puces Trainium et offrent jusqu’à 3 FP8 PFLOPs, 512 Go de mémoire HBM avec une bande passante mémoire de 9,8 To/s, ainsi qu’un réseau EFA pouvant atteindre 1,6 Tbit/s.
AWS Neuron SDK vous permet de tirer pleinement parti des instances Trn3, Trn2 et Trn1 afin que vous puissiez vous concentrer sur la création et le déploiement de modèles tout en accélérant la mise sur le marché. AWS Neuron s’intègre nativement à et PyTorch Jax, ainsi qu’aux bibliothèques essentielles telles que Hugging Face, vLLM, PyTorch Lightning et d’autres. Il optimise les modèles prêts à l’emploi pour l’entraînement et l’inférence distribués, tout en fournissant des informations analytiques détaillées pour le profilage et le débogage. AWS Neuron s’intègre à des services tels qu’Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster et AWS Batch, et à des services tiers tels que Ray (Anyscale), Domino Data Lab et Datadog.
Pour fournir des performances élevées tout en atteignant les objectifs de précision, AWS Trainium prend en charge une gamme de niveaux de précision mixtes
de types de données tels que BF16, FP16, FP8, MXFP8 et MXFP4. Pour soutenir le rythme rapide de l’innovation dans le domaine de l’IA générative,
Trainium2 et Trainium3 proposent des optimisations matérielles pour une dispersion 4 fois plus faible (16:4), une micro-mise à l’échelle et une stochastique
arrondi et moteurs collectifs dédiés.
Neuron permet aux développeurs d’optimiser leurs charges de travail à l’aide de Neuron Kernel Interface (NKI) pour le développement du noyau. NKI expose l’intégralité de Trainium ISA, permettant un contrôle total de la programmation au niveau des instructions, de l’allocation de mémoire et de la planification de l’exécution. En plus de créer leurs propres noyaux, les développeurs peuvent utiliser la bibliothèque de noyaux Neuron, qui est open source et prête à déployer des noyaux optimisés. Enfin, Neuron Explore offre une visibilité complète de la pile, en connectant le code des développeurs jusqu’aux moteurs du matériel.
Clients
Des clients tels qu’Anthropic, Decart, poolside, Databricks, Ricoh, Karakuri, SplashMusic et bien d’autres tirent parti des avantages en termes de performances et de coûts offerts par les instances Trn1, Trn2 et Trn3 ainsi que par les UltraServers.
Les premiers utilisateurs de Trn3 atteignent de nouveaux niveaux d’efficacité et la capacité de mise à l’échelle pour la prochaine génération de modèles d’IA générative à grande échelle.
Maîtrisez la performance, le coût et la mise à l’échelle de l’IA
AWS Trainium2 pour des performances d’IA révolutionnaires
Témoignages clients sur les puces IA AWS