Pourquoi choisir Inferentia ?
Les puces AWS Inferentia, conçues par AWS, offrent des performances élevées au coût le plus bas dans Amazon EC2 pour vos applications d’inférence en deep learning (DL) et en IA générative.
La puce AWS Inferentia de première génération alimente les instances d’Amazon Elastic Compute Cloud (Amazon EC2) Inf1, qui offrent un débit de 2,3 fois supérieur et un coût par inférence de 70 % inférieur à celui des instances Amazon EC2 comparables. De nombreux clients, dont Finch AI, Sprinklr, Money Forward et Amazon Alexa, ont adopté les instances Inf1 et tirent pleinement parti de leurs avantages en matière de performances et de réduction des coûts.
La puce AWS Inferentia2 offre un débit jusqu’à quatre fois supérieur et une latence jusqu’à dix fois inférieure à celle d’Inferentia. Les instances Amazon EC2 Inf2 basées sur Inferentia2 sont optimisées pour déployer des modèles de plus en plus complexes, tels que les grands modèles de langage (LLM) et les modèles de diffusion latente, à grande échelle. Les instances Inf2 sont les premières instances optimisées pour l’inférence dans Amazon EC2 à offrir une prise en charge de l’inférence distribuée à grande échelle, grâce à une connectivité ultra‑rapide entre les puces. De nombreux clients, dont Leonardo.ai, Deutsche Telekom et Qualtrics, ont adopté les instances Inf2 pour leurs applications de DL et d’IA générative.
AWS Neuron SDK permet aux développeurs de déployer des modèles sur les puces AWS Inferentia (et de les entraîner sur les puces AWS Trainium). Il s’intègre nativement aux frameworks les plus répandus, tels que PyTorch et TensorFlow, vous permettant ainsi de conserver vos codes et flux de travail existants tout en les exécutant sur les puces Inferentia.