¿Por qué Inferentia?
Los chips AWS Inferentia están diseñados por AWS para ofrecer un alto rendimiento al menor coste en Amazon EC2 para sus aplicaciones de inferencia de aprendizaje profundo (DL) e IA generativa.
El chip AWS Inferentia de primera generación cuenta con las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un coste por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Muchos clientes, como Finch AI, Sprinklr, Money Forward y Amazon Alexa, adoptaron las instancias Inf1 y experimentaron sus beneficios de rendimiento y coste.
El chip AWS Inferentia2 ofrece un rendimiento hasta cuatro veces mayor y una latencia hasta diez veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están optimizadas para desplegar modelos cada vez más complejos, como modelos de lenguaje de gran tamaño (LLM) y modelos de difusión latente, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los chips. Muchos clientes, incluidos Leonardo.ai, Deutsche Telekom y Qualtrics, han adoptado las instancias de Inf2 para sus aplicaciones de DL e IA generativa.
El SDK AWS Neuron ayuda a los desarrolladores a desplegar modelos en los chips AWS Inferentia (y a entrenarlos en los chips AWS Trainium). Se integra de forma nativa con marcos populares, como PyTorch y TensorFlow, para que pueda continuar utilizando su código y los flujos de trabajo existentes y ejecutarlos en los chips Inferentia.