Chips de IA de AWS

AWS Inferentia

Obtenga un alto rendimiento al menor coste en Amazon EC2 para la inferencia de aprendizaje profundo e IA generativa

Introducción a los chips AWS Inferentia con AWS Neuron

¿Por qué Inferentia?

Los chips AWS Inferentia están diseñados por AWS para ofrecer un alto rendimiento al menor coste en Amazon EC2 para sus aplicaciones de inferencia de aprendizaje profundo (DL) e IA generativa.

El chip AWS Inferentia de primera generación cuenta con las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un coste por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Muchos clientes, como Finch AI, Sprinklr, Money Forward y Amazon Alexa, adoptaron las instancias Inf1 y experimentaron sus beneficios de rendimiento y coste.

El chip AWS Inferentia2 ofrece un rendimiento hasta cuatro veces mayor y una latencia hasta diez veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están optimizadas para desplegar modelos cada vez más complejos, como modelos de lenguaje de gran tamaño (LLM) y modelos de difusión latente, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los chips. Muchos clientes, incluidos Leonardo.ai, Deutsche Telekom y Qualtrics, han adoptado las instancias de Inf2 para sus aplicaciones de DL e IA generativa.

El SDK AWS Neuron ayuda a los desarrolladores a desplegar modelos en los chips AWS Inferentia (y a entrenarlos en los chips AWS Trainium). Se integra de forma nativa con marcos populares, como PyTorch y TensorFlow, para que pueda continuar utilizando su código y los flujos de trabajo existentes y ejecutarlos en los chips Inferentia.

Ventajas de usar AWS Inferentia

Optimizado para un alto rendimiento y una baja latencia

Cada chip Inferentia de primera generación tiene cuatro NeuronCores de primera generación y cada instancia Inf1 de EC2 tiene hasta dieciséis chips Inferentia. Cada chip Inferentia2 tiene dos NeuronCores de segunda generación y cada instancia Inf2 de EC2 tiene hasta doce chips Inferentia2. Cada chip Inferentia2 admite hasta ciento noventa teraoperaciones de coma flotante por segundo de rendimiento FP16. La primera generación de Inferentia tiene 8 GB de memoria DDR4 por chip y también cuenta con una gran cantidad de memoria en el chip. Inferentia2 ofrece 32 GB de HBM por chip, lo que cuadriplica la memoria total y multiplica por diez el ancho de banda de la memoria con respecto a Inferentia.

Soporte nativo para marcos de trabajo de machine learning

El SDK AWS Neuron se integra de forma nativa con marcos de trabajo de machine learning populares como PyTorch y TensorFlow. Con AWS Neuron, puede usar estos marcos para desplegar de manera óptima modelos de DL en ambos chips AWS Inferentia, y Neuron está diseñado para minimizar los cambios en el código y la vinculación a soluciones específicas del proveedor. Neuron le ayuda a ejecutar sus aplicaciones de inferencia para la comprensión o el procesamiento de lenguaje natural (NLP), la traducción de idiomas, el resumen de textos, la generación de vídeos e imágenes, el reconocimiento de voz, la personalización, la detección de fraudes, y mucho más, en chips Inferentia.

Amplia gama de tipos de datos con conversión automática

La primera generación de Inferentia admite tipos de datos FP16, BF16 e INT8. Inferentia2 agrega soporte adicional para FP32, TF32 y el nuevo tipo de datos FP8 configurable (cFP8) a fin de proporcionar a los desarrolladores más flexibilidad para optimizar el rendimiento y precisión. AWS Neuron toma modelos FP32 de alta precisión y los convierte de forma automática en tipos de datos de menor precisión, al tiempo que optimiza la precisión y el rendimiento. La difusión automática reduce el tiempo de comercialización al eliminar la necesidad de un reentrenamiento de menor precisión.

Capacidades de DL de última generación

Inferentia2 agrega optimizaciones de hardware para tamaños de entrada dinámicos y operadores personalizados escritos en C++. También admite el redondeo estocástico, una forma de redondear probabilísticamente que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.

Creado para la sostenibilidad

Las instancias de Inf2 ofrecen hasta un 50 % más de rendimiento por vatio en comparación con las instancias de Amazon EC2, ya que tanto ellas como los chips subyacentes Inferentia2 están diseñados para ejecutar modelos de DL a escala. Con las instancias de Inf2 podrá alcanzar sus objetivos de sostenibilidad cuando despliegue modelos ultragrandes.

Vídeos

Una mirada entre bastidores a la infraestructura de IA generativa en Amazon

Presentamos las instancias Inf2 de Amazon EC2 con tecnología de AWS Inferentia2

Cómo cuatro clientes de AWS redujeron los costes de machine learning e impulsaron la innovación con AWS Inferentia

Recursos

Blog

Refine y despliegue modelos de Llama 2 de forma rentable en Amazon SageMaker JumpStart con AWS Inferentia y AWS Trainium

Lea el blog

Blog

Refine Llama 2 con QLoRA y despliéguelo en Amazon SageMaker con AWS Inferentia2

Lea el blog

Blog

Maximice el rendimiento de Stable Diffusion y reduzca los costes de inferencia con AWS Inferentia2

Lea el blog

Blog

Logre un alto rendimiento al menor coste en la inferencia de IA generativa utilizando AWS Inferentia2 y AWS Trainium en Amazon SageMaker

Lea el blog

Blog

ByteDance ahorra hasta un 60 % en costes de inferencia, al tiempo que reduce la latencia y aumenta el rendimiento, utilizando AWS Inferentia

Lea el blog

Blog

Cómo Amazon Search consiguió disminuir en un 85 % los costes de inferencia de ML gracias a AWS Inferentia

Lea el blog

Recursos adicionales

Comience a utilizar AWS Inferentia mediante AWS Neuron desde TensorFlow, PyTorch o MXNet

Más información

Recursos adicionales

Hoja de ruta de características de AWS Neuron

Más información

Recursos adicionales

Aprenda a realizar inferencias en AWS Inferentia gracias a estos tutoriales prácticos

Más información

Comience a utilizar AWS Inferentia

Más información

Consola

Comience a crear en la consola

Inicie sesión

Nivel gratuito

Ejemplos y tutoriales de inferencias (Inf2/Trn1)

Más información

AWS Inferentia

¿Por qué Inferentia?

Ventajas de usar AWS Inferentia

Optimizado para un alto rendimiento y una baja latencia

Soporte nativo para marcos de trabajo de machine learning

Amplia gama de tipos de datos con conversión automática

Capacidades de DL de última generación

Creado para la sostenibilidad

Vídeos

Recursos

Refine y despliegue modelos de Llama 2 de forma rentable en Amazon SageMaker JumpStart con AWS Inferentia y AWS Trainium

Refine Llama 2 con QLoRA y despliéguelo en Amazon SageMaker con AWS Inferentia2

Maximice el rendimiento de Stable Diffusion y reduzca los costes de inferencia con AWS Inferentia2

Logre un alto rendimiento al menor coste en la inferencia de IA generativa utilizando AWS Inferentia2 y AWS Trainium en Amazon SageMaker

ByteDance ahorra hasta un 60 % en costes de inferencia, al tiempo que reduce la latencia y aumenta el rendimiento, utilizando AWS Inferentia

Cómo Amazon Search consiguió disminuir en un 85 % los costes de inferencia de ML gracias a AWS Inferentia

Comience a utilizar AWS Inferentia mediante AWS Neuron desde TensorFlow, PyTorch o MXNet

Hoja de ruta de características de AWS Neuron

Aprenda a realizar inferencias en AWS Inferentia gracias a estos tutoriales prácticos

Comience a utilizar AWS Inferentia

Comience a crear en la consola

Ejemplos y tutoriales de inferencias (Inf2/Trn1)

Aprender

Recursos

Desarrolladores

Ayuda

AWS Inferentia

¿Por qué Inferentia?

Ventajas de usar AWS Inferentia

Optimizado para un alto rendimiento y una baja latencia

Soporte nativo para marcos de trabajo de machine learning

Amplia gama de tipos de datos con conversión automática

Capacidades de DL de última generación

Creado para la sostenibilidad

Vídeos

Recursos

Refine y despliegue modelos de Llama 2 de forma rentable en Amazon SageMaker JumpStart con AWS Inferentia y AWS Trainium

Refine Llama 2 con QLoRA y despliéguelo en Amazon SageMaker con AWS Inferentia2

Maximice el rendimiento de Stable Diffusion y reduzca los costes de inferencia con AWS Inferentia2

Logre un alto rendimiento al menor coste en la inferencia de IA generativa utilizando AWS Inferentia2 y AWS Trainium en Amazon SageMaker

ByteDance ahorra hasta un 60 % en costes de inferencia, al tiempo que reduce la latencia y aumenta el rendimiento, utilizando AWS Inferentia

Cómo Amazon Search consiguió disminuir en un 85 % los costes de inferencia de ML gracias a AWS Inferentia

Comience a utilizar AWS Inferentia mediante AWS Neuron desde TensorFlow, PyTorch o MXNet

Hoja de ruta de características de AWS Neuron

Aprenda a realizar inferencias en AWS Inferentia gracias a estos tutoriales prácticos

Comience a utilizar AWS Inferentia

Comience a crear en la consola

Ejemplos y tutoriales de inferencias (Inf2/Trn1)

Aprender

Recursos

Desarrolladores

Ayuda

Cómo Amazon Search consiguió disminuir en un 85 % los costes de inferencia de ML gracias a AWS Inferentia