Puces IA AWS

AWS Inferentia

Obtenez de hautes performances à moindre coût dans Amazon EC2 pour l’inférence en deep learning et en IA générative

Commencez à utiliser les puces AWS Inferentia à l’aide d’AWS Neuron

Pourquoi choisir Inferentia ?

Les puces AWS Inferentia, conçues par AWS, offrent des performances élevées au coût le plus bas dans Amazon EC2 pour vos applications d’inférence en deep learning (DL) et en IA générative.

La puce AWS Inferentia de première génération alimente les instances d’Amazon Elastic Compute Cloud (Amazon EC2) Inf1, qui offrent un débit de 2,3 fois supérieur et un coût par inférence de 70 % inférieur à celui des instances Amazon EC2 comparables. De nombreux clients, dont Finch AI, Sprinklr, Money Forward et Amazon Alexa, ont adopté les instances Inf1 et tirent pleinement parti de leurs avantages en matière de performances et de réduction des coûts.

La puce AWS Inferentia2 offre un débit jusqu’à quatre fois supérieur et une latence jusqu’à dix fois inférieure à celle d’Inferentia. Les instances Amazon EC2 Inf2 basées sur Inferentia2 sont optimisées pour déployer des modèles de plus en plus complexes, tels que les grands modèles de langage (LLM) et les modèles de diffusion latente, à grande échelle. Les instances Inf2 sont les premières instances optimisées pour l’inférence dans Amazon EC2 à offrir une prise en charge de l’inférence distribuée à grande échelle, grâce à une connectivité ultra‑rapide entre les puces. De nombreux clients, dont Leonardo.ai, Deutsche Telekom et Qualtrics, ont adopté les instances Inf2 pour leurs applications de DL et d’IA générative.

AWS Neuron SDK permet aux développeurs de déployer des modèles sur les puces AWS Inferentia (et de les entraîner sur les puces AWS Trainium). Il s’intègre nativement aux frameworks les plus répandus, tels que PyTorch et TensorFlow, vous permettant ainsi de conserver vos codes et flux de travail existants tout en les exécutant sur les puces Inferentia.

Avantages d’AWS Inferentia

Optimisé pour un débit élevé et une faible latence

Chaque puce Inferentia de première génération possède 4 NeuronCores de première génération, et chaque instance EC2 Inf1 possède jusqu’à 16 puces Inferentia. Chaque puce Inferentia2 possède 2 NeuronCores de deuxième génération et chaque instance EC2 Inf2 possède jusqu’à 12 puces Inferentia2. Chaque puce Inferentia2 offre une puissance de calcul pouvant atteindre 190 téra‑opérations en virgule flottante par seconde (TFLOPS) en précision FP16. La puce Inferentia de première génération possède 8 Go de mémoire DDR4 par puce et dispose également d’une grande quantité de mémoire sur puce. Chaque puce Inferentia2 est dotée de 32 Go de mémoire HBM, multipliant par 4 la capacité totale et offrant une bande passante mémoire jusqu’à 10 fois supérieure à celle d’Inferentia.

Prise en charge native des frameworks de ML

AWS Neuron SDK s’intègre nativement aux frameworks de ML les plus répandus, tels que PyTorch et TensorFlow. Avec AWS Neuron, vous pouvez utiliser ces frameworks pour déployer de manière optimale des modèles de DL sur les puces AWS Inferentia. De plus, Neuron est conçu pour limiter les modifications de code et éviter toute dépendance à des solutions propriétaires. Neuron vous aide à exécuter vos applications d’inférence pour la compréhension/le traitement du langage naturel (NLP), la traduction linguistique, la synthétisation de texte, la génération de vidéos et d’images, la reconnaissance vocale, la personnalisation, la détection des fraudes et bien plus encore, le tout sur les puces Inferentia.

Large éventail de types de données avec conversion automatique de précision

La puce Inferentia de première génération prend en charge les types de données FP16, BF16 et INT8. Inferentia2 ajoute un support supplémentaire pour FP32, TF32, et le nouveau type de données configurable FP8 (cFP8) pour fournir aux développeurs plus de flexibilité afin d'optimiser la performance et la précision. AWS Neuron prend des modèles FP32 de haute précision et les convertit automatiquement en types de données de moindre précision, tout en optimisant la précision et les performances. La conversion automatique de précision (autocasting) accélère la mise sur le marché en supprimant la nécessité de réentraîner les modèles en basse précision.

Capacités de deep learning de pointe

Inferentia2 intègre des optimisations matérielles pour les tailles d’entrée dynamiques ainsi que pour les opérateurs personnalisés développés en C++. Inferentia2 prend également en charge l’arrondi stochastique, une méthode de probabilisation de l’arrondi qui permet d’atteindre à la fois de meilleures performances et une plus grande précision par rapport aux modes d’arrondi traditionnels.

Conçu pour la durabilité

Les instances Inf2 offrent jusqu’à 50 % plus de performance par watt que les instances Amazon EC2 comparables, grâce à leur conception spécifique et aux puces Inferentia2 sous‑jacentes, optimisées pour exécuter des modèles de deep learning à grande échelle. Les instances Inf2 vous aident à atteindre vos objectifs de durabilité lors du déploiement de modèles de très grande taille.

Vidéos

Découvrez les coulisses de l’infrastructure d’IA générative d’Amazon

Présentation des instances Amazon EC2 Inf2 optimisées par AWS Inferentia2

Comment quatre clients AWS ont réduit leurs coûts de machine learning et ont stimulé l’innovation grâce à AWS Inferentia

Ressources

Blog

Optimisez et déployez les modèles Llama 2 de manière rentable dans Amazon SageMaker JumpStart avec AWS Inferentia et AWS Trainium

Lire le blog

Blog

Optimisez Llama 2 à l’aide de QLoRA et déployez‑le sur Amazon SageMaker avec AWS Inferentia2

Lire le blog

Blog

Optimisez les performances de Stable Diffusion et réduisez les coûts d’inférence avec AWS Inferentia2

Lire le blog

Blog

Obtenir de hautes performances à moindre coût pour l’inférence d’IA générative en utilisant AWS Inferentia2 et AWS Trainium sur Amazon SageMaker

Lire le blog

Blog

ByteDance permet d’économiser jusqu’à 60 % sur les coûts d’inférence tout en réduisant la latence et en augmentant le débit grâce à AWS Inferentia

Lire le blog

Blog

Comment Amazon Search a réduit les coûts d’inférence ML de 85 % avec AWS Inferentia

Lire le blog

Ressources supplémentaires

Utilisez AWS Neuron et initiez‑vous à AWS Inferentia depuis TensorFlow, PyTorch ou MXNet

Ressources supplémentaires

Plan d’évolution des fonctionnalités AWS Neuron

Ressources supplémentaires

Découvrez comment créer vos premières inférences sur AWS Inferentia grâce à ces tutoriels simples et pratiques

Démarrez avec AWS Inferentia

Console

Commencer à créer dans la console

Se connecter

Offre gratuite

Exemples d’inférence/tutoriels (Inf2/Trn1)

AWS Inferentia

Pourquoi choisir Inferentia ?

Avantages d’AWS Inferentia

Optimisé pour un débit élevé et une faible latence

Prise en charge native des frameworks de ML

Large éventail de types de données avec conversion automatique de précision

Capacités de deep learning de pointe

Conçu pour la durabilité

Vidéos

Ressources

Optimisez et déployez les modèles Llama 2 de manière rentable dans Amazon SageMaker JumpStart avec AWS Inferentia et AWS Trainium

Optimisez Llama 2 à l’aide de QLoRA et déployez‑le sur Amazon SageMaker avec AWS Inferentia2

Optimisez les performances de Stable Diffusion et réduisez les coûts d’inférence avec AWS Inferentia2

Obtenir de hautes performances à moindre coût pour l’inférence d’IA générative en utilisant AWS Inferentia2 et AWS Trainium sur Amazon SageMaker

ByteDance permet d’économiser jusqu’à 60 % sur les coûts d’inférence tout en réduisant la latence et en augmentant le débit grâce à AWS Inferentia

Comment Amazon Search a réduit les coûts d’inférence ML de 85 % avec AWS Inferentia

Utilisez AWS Neuron et initiez‑vous à AWS Inferentia depuis TensorFlow, PyTorch ou MXNet

Plan d’évolution des fonctionnalités AWS Neuron

Découvrez comment créer vos premières inférences sur AWS Inferentia grâce à ces tutoriels simples et pratiques

Démarrez avec AWS Inferentia

Commencer à créer dans la console

Exemples d’inférence/tutoriels (Inf2/Trn1)

Apprendre

Ressources

Développeurs

Aide