Puces IA AWS

AWS Neuron

Kit SDK destiné à optimiser l’IA et deep learning sur AWS Trainium et AWS Inferentia

Qu’est-ce qu’AWS Neuron ?

AWS Neuron est la suite de développement permettant d’exécuter des charges de travail de deep learning et d’IA générative sur AWS Trainium et AWS Inferentia. Construit sur une base open source, Neuron permet aux développeurs de créer, déployer et explorer de manière native avec les frameworks PyTorch et JAX et avec des bibliothèques ML telles que HuggingFace, vLLM, PyTorch Lightning et d’autres sans modifier votre code. Il comprend un compilateur, des bibliothèques d’exécution, d’entraînement et d’inférence, ainsi que des outils de développement pour la surveillance, le profilage et le débogage. Neuron prend en charge votre cycle de développement de machine learning (ML) de bout en bout, notamment en créant et en déployant des modèles de deep learning et d’IA, en optimisant pour atteindre les meilleures performances et les moindres coûts, et en obtenant des informations plus approfondies sur le comportement des modèles.

Neuron permet des expériences rapides, la formation à l’échelle de la production de modèles de pointe, une optimisation des performances de bas niveau via Neuron Kernel Interface (NKI) pour les noyaux personnalisés, un déploiement d’inférence optimisé en termes de coûts pour les charges de travail d’IA agentique et d’apprentissage par renforcement, ainsi qu’un profilage et un débogage complets avec Neuron Explorer.

An abstract illustration of a human head silhouette filled with colorful geometric data patterns and lines, representing artificial intelligence and machine learning concepts.

Conçu pour les chercheurs

Neuron permet des recherches rapides sur l’IA en exécutant le code PyTorch natif inchangé sur Trainium. Les chercheurs peuvent essayer de nouvelles idées et effectuer des itérations rapidement grâce à la prise en charge du mode PyTorch Eager. La mise à l’échelle est facile grâce aux bibliothèques distribuées PyTorch telles que FSDP, DDP et DTensor aux modèles à partition qui permettent de partager des modèles sur des puces ou de les adapter à plusieurs nœuds. Neuron prend en charge torch.compile, et des bibliothèques comme TorchTitan et HuggingFace Transformers fonctionnent désormais directement sur Trainium sans modification. Les développeurs JAX peuvent également utiliser Neuron pour développer, optimiser et déployer facilement leurs modèles sur Inferentia et Trainium.

Abstract digital illustration featuring concentric rings of pink brick-like segments on a dark blue background, representing AWS security, identity, and compliance concepts.

Conçu pour la productivité

Neuron optimise l’économie de l’inférence pour les charges de travail d’IA agentique et d’apprentissage par renforcement. Les API vLLM V1 standard fonctionnent sur Trainium et Inferentia avec des performances élevées prêtes à l’emploi avec des caractéristiques telles que le parallélisme expert, l’inférence désagrégée et le décodage spéculatif, ainsi que des noyaux optimisés issus de la Neuron Kernel Library pour maximiser l’économie des jetons à grande échelle.  Les développeurs de machine learning peuvent s’entraîner avec HuggingFace Optimum Neuron, PyTorch Lightning et TorchTitan, puis déployer l’inférence avec les API vLLM standard.

A vibrant abstract background featuring a pattern of colorful rectangular shapes arranged in horizontal rows, with various shades of blue, red, purple, pink, and yellow.

Conçu pour l’innovation

La création de modèles d’IA nécessite à la fois une innovation rapide et une optimisation des performances. Alors que les cadres standard tels que PyTorch facilitent l’expérimentation à grande échelle, repousser les limites des performances nécessite d’optimiser l’ensemble de la pile (puce, serveur et UltraServer). Neuron fournit aux ingénieurs de performance ML un accès sans précédent à nos puces AWS AI, via Neuron Kernel Interface (NKI), des informations plus approfondies via Neuron Explorer et notre bibliothèque de noyaux optimisée appelée Neuron Kernel Library (NKIlib). NKI fournit des API pour l’allocation de mémoire et la planification de l’exécution, ainsi qu’un accès direct au Trainium ISA, permettant de contrôler la programmation au niveau des instructions. Le compilateur NKI est open source, construit sur MLIR et offre aux développeurs une visibilité sur le pipeline complet du compilateur. La bibliothèque Neuron Kernel à code source ouvert fournit des implémentations optimisées avec du code source, de la documentation et des benchmarks. Neuron Explorer fournit une suite unifiée d’outils qui guide les développeurs tout au long de leur parcours d’optimisation des performances et de débogage. Les ingénieurs de performance peuvent suivre l’exécution depuis le code source jusqu’aux opérations matérielles, établir le profil des applications distribuées et à nœud unique, et recevoir des informations basées sur l’IA et des recommandations exploitables pour l’optimisation du noyau et l’amélioration des performances.

Abstract illustration featuring various geometric shapes, such as triangles, circles, rectangles, and grids, in gradient pastel yellow and purple tones on a lavender background. Arrows and dotted lines add motion and connectivity, suitable for themes of application integration and creative design.

Conçu pour l’Open Source

L’innovation en matière d’IA prospère au sein de communautés ouvertes où les développeurs peuvent inspecter, modifier et contribuer. Neuron s’engage en faveur de la communauté open source et encourage l’innovation. Alors que nous transférons de plus en plus de parties de notre pile vers l’open source, les intégrations NKI Compiler, Neuron Kernel Driver, Neuron Kernel Library, NxD Inference, Neuron Explorer et PyTorch, JAX et vLLM sont disponibles aujourd’hui entièrement en open source. Les bibliothèques et outils open source permettent aux développeurs d’inspecter les implémentations des compilateurs, de contribuer aux optimisations et d’adapter le code du noyau sans aucune barrière. Venez créer avec nous.

An abstract background featuring flowing, multicolored waves beneath a variety of geometric shapes (such as circles, rectangles, hexagons, and triangles) on a dark backdrop. The image visually suggests data visualization, analytics, or machine learning concepts.

Rencontrez Neuron

Neuron fournit une intégration native avec PyTorch, permettant aux chercheurs et aux développeurs de ML d’exécuter le code existant sans modification sur Trainium. Les API standard, notamment FSDP, DDP et DTensor, fonctionnent parfaitement pour une formation distribuée sur des configurations multi-nœuds. Les bibliothèques de ML populaires telles que TorchTitan, HuggingFace Optimum Neuron, PyTorch Lightning et d’autres fonctionnent directement avec un minimum de modifications. Entraînez des modèles à l’aide de flux de travail et d’outils familiers, de la pré-formation à la post-formation grâce à l’apprentissage par renforcement, tout en tirant parti des performances et des avantages financiers de Trainium pour l’expérimentation et la formation à l’échelle de production.

Neuron permet le déploiement d’inférence de production à l’aide de cadres et d’API standard sur Trainium et Inferentia. L’intégration de vLLM avec des API standard fournit des services de haute performance avec des noyaux optimisés issus de la bibliothèque Neuron Kernel. Les caractéristiques avancées, notamment le parallélisme expert, l’inférence désagrégée et le décodage spéculatif, maximisent le nombre de jetons par seconde tout en minimisant le coût par jeton. Déployez des charges de travail d’IA agentique et d’apprentissage par renforcement à grande échelle grâce à des optimisations de performances prêtes à l’emploi.

Pour les ingénieurs de performance qui recherchent une efficacité matérielle maximale, Neuron fournit un contrôle complet via Neuron Kernel Interface (NKI), avec un accès direct au jeu d’instructions NeuronISA, à l’allocation de mémoire et à la planification de l’exécution. Les développeurs peuvent créer de nouvelles opérations non disponibles dans les cadres standard et optimiser le code critique en termes de performances grâce à des noyaux personnalisés. Le compilateur NKI open source, basé sur MLIR, assure la transparence des processus de compilation. La bibliothèque Neuron Kernel propose des noyaux optimisés et prêts pour la production avec un code source complet, une documentation et des benchmarks.

Neuron Explorer fournit une suite unifiée d’outils qui guide les développeurs tout au long de leur parcours d’optimisation des performances et de débogage. En consolidant le profilage, le débogage, la mise en œuvre d’optimisations et la validation des améliorations dans un environnement unique, Neuron Explorer élimine les pertes de temps liées à des outils fragmentés. Le profilage hiérarchique avec liaison de code pour PyTorch, JAX et NKI permet de suivre l’exécution du code source jusqu’aux opérations matérielles. Les recommandations basées sur l’IA analysent les profils pour identifier les goulots d’étranglement et fournir des informations exploitables pour les stratégies de partitionnement et l’optimisation des noyaux. L’interface utilisateur est open source sur GitHub.

Neuron fournit des fonctionnalités complètes de surveillance et d’observabilité qui permettent aux développeurs de ML et aux équipes MLOps de maintenir l’excellence opérationnelle pour les déploiements de production. L’intégration native d’Amazon CloudWatch permet une surveillance centralisée de l’infrastructure de machine learning, avec la prise en charge des applications conteneurisées sur Kubernetes et Amazon EKS. Les intégrations des plateformes partenaires à des outils tels que Datadog étendent l’observabilité grâce à une surveillance, une journalisation et des alertes unifiées. Neuron fournit des utilitaires tels que neuron-top pour la surveillance en temps réel, Neuron Monitor pour la collecte de métriques, neuron-ls pour la liste des appareils et Neuron Sysfs pour des informations détaillées sur le système.

Neuron simplifie le déploiement pour les développeurs de ML et les équipes MLOps grâce à des environnements préconfigurés et à des outils d’infrastructure. Les AMI Neuron Deep Learning (DLAMIS) et les conteneurs Deep Learning (DLC) sont fournis avec la suite logicielle Neuron, des cadres populaires et des bibliothèques essentielles. Pour les déploiements Kubernetes, le plug-in Neuron Device gère l’allocation des ressources, l’extension Neuron Scheduler fournit un placement intelligent de la charge de travail et le pilote d’allocation dynamique des ressources (DRA) résume la complexité de la topologie matérielle grâce à une sélection intuitive des ressources basée sur la taille. Les Charts de Helm rationalise l’orchestration pour les déploiements conteneurisés.

Créez avec Neuron

Utilisation du deep learning d’Amazon Machine Images

Neuron Deep Learning Amazon Machine Images (Neuron DLAMIs) est préconfiguré avec le SDK Neuron, des frameworks populaires et des bibliothèques utiles, ce qui vous permet de commencer rapidement à vous entraîner et à exécuter des inférences sur AWS Inferentia. Neuron DLAMIs rationalise votre flux de travail et optimise les performances, en éliminant les complexités de configuration afin que vous puissiez vous concentrer sur la création et le déploiement de modèles d’IA. Commencez à utiliser Neuron DLAMIs.

Démarrer

Utilisation de conteneurs Deep Learning

Déployez rapidement des modèles à l’aide de conteneurs Deep Learning AWS Neuron (DLC Neuron) préconfigurés avec des frameworks optimisés pour Trainium et Inferentia. Pour des solutions personnalisées, créez vos propres conteneurs et tirez parti des fonctionnalités de Kubernetes telles que le plugin Neuron Device, l’extension Neuron Scheduler et les Charts de Helm. Intégrez facilement les services AWS tels qu’Amazon EKS, AWS Batch et Amazon ECS pour des déploiements évolutifs. Commencez à utiliser les DLC Neuron.

Démarrer

Utilisation de Hugging Face

Optimum Neuron fait le lien entre les transformeurs Hugging Face et le SDK AWS Neuron, fournissant des API Hugging Face standard pour Trainium et Inferentia. Il propose des solutions pour la formation et l’inférence, notamment la prise en charge de l’entraînement de modèles à grande échelle et le déploiement de flux de travail d’IA. Compatible avec Amazon SageMaker et les conteneurs Deep Learning prédéfinis, Optimum Neuron simplifie l’utilisation de Trainium et Inferentia pour le machine learning. Cette intégration permet aux développeurs de travailler avec des interfaces Hugging Face familières tout en tirant parti de Trainium et Inferentia pour leurs projets basés sur des transformeurs. Commencez à utiliser Hugging Face Optimum Neuron.

Démarrer

Utilisation d’Amazon SageMaker JumpStart

Vous pouvez utiliser Amazon SageMaker JumpStart pour entraîner et déployer des modèles à l’aide de Neuron. JumpStart fournit une assistance pour optimiser et déployer des modèles populaires tels que la famille de modèles Llama de Meta. Commencez à utiliser SageMaker JumpStart.

Démarrer

Étapes suivantes

Mise en route

Démarrer avec Amazon SageMaker JumpStart

Mise en route

Commencer à utiliser Neuron DLAMIs sur Amazon Elastic Compute Cloud (Amazon EC2)

AWS Neuron

Qu’est-ce qu’AWS Neuron ?

Conçu pour les chercheurs

Conçu pour la productivité

Conçu pour l’innovation

Conçu pour l’Open Source

Rencontrez Neuron

Créez avec Neuron

Utilisation du deep learning d’Amazon Machine Images

Utilisation de conteneurs Deep Learning

Utilisation de Hugging Face

Utilisation d’Amazon SageMaker JumpStart

Étapes suivantes

Démarrer avec Amazon SageMaker JumpStart

Commencer à utiliser Neuron DLAMIs sur Amazon Elastic Compute Cloud (Amazon EC2)

Apprendre

Ressources

Développeurs

Aide

AWS Neuron

Qu’est-ce qu’AWS Neuron ?

Conçu pour les chercheurs

Conçu pour la productivité

Conçu pour l’innovation

Conçu pour l’Open Source

Rencontrez Neuron

Entraînement et inférence avec Neuron

Neuron Kernel Interface (NKI)

Neuron Explorer

Surveillance et observabilité

Déploiement et infrastructure

Créez avec Neuron

Utilisation du deep learning d’Amazon Machine Images

Utilisation de conteneurs Deep Learning

Utilisation de Hugging Face

Utilisation d’Amazon SageMaker JumpStart

Étapes suivantes

Démarrer avec Amazon SageMaker JumpStart

Commencer à utiliser Neuron DLAMIs sur Amazon Elastic Compute Cloud (Amazon EC2)

Apprendre

Ressources

Développeurs

Aide