- Produit›
- Machine Learning›
- AWS Neuron
AWS Neuron
Kit SDK destiné à optimiser l’IA et deep learning sur AWS Trainium et AWS Inferentia
Qu’est-ce qu’AWS Neuron ?
AWS Neuron est la suite de développement permettant d’exécuter des charges de travail de deep learning et d’IA générative sur AWS Trainium et AWS Inferentia. Construit sur une base open source, Neuron permet aux développeurs de créer, déployer et explorer de manière native avec les frameworks PyTorch et JAX et avec des bibliothèques ML telles que HuggingFace, vLLM, PyTorch Lightning et d’autres sans modifier votre code. Il comprend un compilateur, des bibliothèques d’exécution, d’entraînement et d’inférence, ainsi que des outils de développement pour la surveillance, le profilage et le débogage. Neuron prend en charge votre cycle de développement de machine learning (ML) de bout en bout, notamment en créant et en déployant des modèles de deep learning et d’IA, en optimisant pour atteindre les meilleures performances et les moindres coûts, et en obtenant des informations plus approfondies sur le comportement des modèles.
Neuron permet des expériences rapides, la formation à l’échelle de la production de modèles de pointe, une optimisation des performances de bas niveau via Neuron Kernel Interface (NKI) pour les noyaux personnalisés, un déploiement d’inférence optimisé en termes de coûts pour les charges de travail d’IA agentique et d’apprentissage par renforcement, ainsi qu’un profilage et un débogage complets avec Neuron Explorer.
Conçu pour les chercheurs
Neuron permet des recherches rapides sur l’IA en exécutant le code PyTorch natif inchangé sur Trainium. Les chercheurs peuvent essayer de nouvelles idées et effectuer des itérations rapidement grâce à la prise en charge du mode PyTorch Eager. La mise à l’échelle est facile grâce aux bibliothèques distribuées PyTorch telles que FSDP, DDP et DTensor aux modèles à partition qui permettent de partager des modèles sur des puces ou de les adapter à plusieurs nœuds. Neuron prend en charge torch.compile, et des bibliothèques comme TorchTitan et HuggingFace Transformers fonctionnent désormais directement sur Trainium sans modification. Les développeurs JAX peuvent également utiliser Neuron pour développer, optimiser et déployer facilement leurs modèles sur Inferentia et Trainium.
Conçu pour la productivité
Neuron optimise l’économie de l’inférence pour les charges de travail d’IA agentique et d’apprentissage par renforcement. Les API vLLM V1 standard fonctionnent sur Trainium et Inferentia avec des performances élevées prêtes à l’emploi avec des caractéristiques telles que le parallélisme expert, l’inférence désagrégée et le décodage spéculatif, ainsi que des noyaux optimisés issus de la Neuron Kernel Library pour maximiser l’économie des jetons à grande échelle. Les développeurs de machine learning peuvent s’entraîner avec HuggingFace Optimum Neuron, PyTorch Lightning et TorchTitan, puis déployer l’inférence avec les API vLLM standard.
Conçu pour l’innovation
La création de modèles d’IA nécessite à la fois une innovation rapide et une optimisation des performances. Alors que les cadres standard tels que PyTorch facilitent l’expérimentation à grande échelle, repousser les limites des performances nécessite d’optimiser l’ensemble de la pile (puce, serveur et UltraServer). Neuron fournit aux ingénieurs de performance ML un accès sans précédent à nos puces AWS AI, via Neuron Kernel Interface (NKI), des informations plus approfondies via Neuron Explorer et notre bibliothèque de noyaux optimisée appelée Neuron Kernel Library (NKIlib). NKI fournit des API pour l’allocation de mémoire et la planification de l’exécution, ainsi qu’un accès direct au Trainium ISA, permettant de contrôler la programmation au niveau des instructions. Le compilateur NKI est open source, construit sur MLIR et offre aux développeurs une visibilité sur le pipeline complet du compilateur. La bibliothèque Neuron Kernel à code source ouvert fournit des implémentations optimisées avec du code source, de la documentation et des benchmarks. Neuron Explorer fournit une suite unifiée d’outils qui guide les développeurs tout au long de leur parcours d’optimisation des performances et de débogage. Les ingénieurs de performance peuvent suivre l’exécution depuis le code source jusqu’aux opérations matérielles, établir le profil des applications distribuées et à nœud unique, et recevoir des informations basées sur l’IA et des recommandations exploitables pour l’optimisation du noyau et l’amélioration des performances.
Conçu pour l’Open Source
L’innovation en matière d’IA prospère au sein de communautés ouvertes où les développeurs peuvent inspecter, modifier et contribuer. Neuron s’engage en faveur de la communauté open source et encourage l’innovation. Alors que nous transférons de plus en plus de parties de notre pile vers l’open source, les intégrations NKI Compiler, Neuron Kernel Driver, Neuron Kernel Library, NxD Inference, Neuron Explorer et PyTorch, JAX et vLLM sont disponibles aujourd’hui entièrement en open source. Les bibliothèques et outils open source permettent aux développeurs d’inspecter les implémentations des compilateurs, de contribuer aux optimisations et d’adapter le code du noyau sans aucune barrière. Venez créer avec nous.
Rencontrez Neuron
Neuron fournit une intégration native avec PyTorch, permettant aux chercheurs et aux développeurs de ML d’exécuter le code existant sans modification sur Trainium. Les API standard, notamment FSDP, DDP et DTensor, fonctionnent parfaitement pour une formation distribuée sur des configurations multi-nœuds. Les bibliothèques de ML populaires telles que TorchTitan, HuggingFace Optimum Neuron, PyTorch Lightning et d’autres fonctionnent directement avec un minimum de modifications. Entraînez des modèles à l’aide de flux de travail et d’outils familiers, de la pré-formation à la post-formation grâce à l’apprentissage par renforcement, tout en tirant parti des performances et des avantages financiers de Trainium pour l’expérimentation et la formation à l’échelle de production.
Neuron permet le déploiement d’inférence de production à l’aide de cadres et d’API standard sur Trainium et Inferentia. L’intégration de vLLM avec des API standard fournit des services de haute performance avec des noyaux optimisés issus de la bibliothèque Neuron Kernel. Les caractéristiques avancées, notamment le parallélisme expert, l’inférence désagrégée et le décodage spéculatif, maximisent le nombre de jetons par seconde tout en minimisant le coût par jeton. Déployez des charges de travail d’IA agentique et d’apprentissage par renforcement à grande échelle grâce à des optimisations de performances prêtes à l’emploi.
Pour les ingénieurs de performance qui recherchent une efficacité matérielle maximale, Neuron fournit un contrôle complet via Neuron Kernel Interface (NKI), avec un accès direct au jeu d’instructions NeuronISA, à l’allocation de mémoire et à la planification de l’exécution. Les développeurs peuvent créer de nouvelles opérations non disponibles dans les cadres standard et optimiser le code critique en termes de performances grâce à des noyaux personnalisés. Le compilateur NKI open source, basé sur MLIR, assure la transparence des processus de compilation. La bibliothèque Neuron Kernel propose des noyaux optimisés et prêts pour la production avec un code source complet, une documentation et des benchmarks.
Neuron Explorer fournit une suite unifiée d’outils qui guide les développeurs tout au long de leur parcours d’optimisation des performances et de débogage. En consolidant le profilage, le débogage, la mise en œuvre d’optimisations et la validation des améliorations dans un environnement unique, Neuron Explorer élimine les pertes de temps liées à des outils fragmentés. Le profilage hiérarchique avec liaison de code pour PyTorch, JAX et NKI permet de suivre l’exécution du code source jusqu’aux opérations matérielles. Les recommandations basées sur l’IA analysent les profils pour identifier les goulots d’étranglement et fournir des informations exploitables pour les stratégies de partitionnement et l’optimisation des noyaux. L’interface utilisateur est open source sur GitHub.
Neuron fournit des fonctionnalités complètes de surveillance et d’observabilité qui permettent aux développeurs de ML et aux équipes MLOps de maintenir l’excellence opérationnelle pour les déploiements de production. L’intégration native d’Amazon CloudWatch permet une surveillance centralisée de l’infrastructure de machine learning, avec la prise en charge des applications conteneurisées sur Kubernetes et Amazon EKS. Les intégrations des plateformes partenaires à des outils tels que Datadog étendent l’observabilité grâce à une surveillance, une journalisation et des alertes unifiées. Neuron fournit des utilitaires tels que neuron-top pour la surveillance en temps réel, Neuron Monitor pour la collecte de métriques, neuron-ls pour la liste des appareils et Neuron Sysfs pour des informations détaillées sur le système.
Neuron simplifie le déploiement pour les développeurs de ML et les équipes MLOps grâce à des environnements préconfigurés et à des outils d’infrastructure. Les AMI Neuron Deep Learning (DLAMIS) et les conteneurs Deep Learning (DLC) sont fournis avec la suite logicielle Neuron, des cadres populaires et des bibliothèques essentielles. Pour les déploiements Kubernetes, le plug-in Neuron Device gère l’allocation des ressources, l’extension Neuron Scheduler fournit un placement intelligent de la charge de travail et le pilote d’allocation dynamique des ressources (DRA) résume la complexité de la topologie matérielle grâce à une sélection intuitive des ressources basée sur la taille. Les Charts de Helm rationalise l’orchestration pour les déploiements conteneurisés.