- Productos›
- Machine Learning›
- AWS Inferentia
AWS Inferentia
Obtenga un alto rendimiento por un coste menor en Amazon EC2 para la inferencia de aprendizaje profundo e IA generativa
¿Por qué Inferentia?
Los chips AWS Inferentia están diseñados por AWS con el objetivo de ofrecer un alto rendimiento por un coste menor en Amazon EC2 para sus aplicaciones de inferencia de aprendizaje profundo e IA generativa.
El chip AWS Inferentia de primera generación cuenta con las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un coste por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Muchos clientes, como Finch AI, Sprinklr, Money Forward y Amazon Alexa, han adoptado las instancias Inf1 y han experimentado sus beneficios de rendimiento y coste.
El chip AWS Inferentia2 ofrece un rendimiento hasta cuatro veces mayor y una latencia hasta diez veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están optimizadas para desplegar modelos cada vez más complejos a escala, como modelos de lenguaje de gran tamaño (LLM) y modelos de difusión latente. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los chips. Muchos clientes, incluidos Leonardo.ai, Deutsche Telekom y Qualtrics, han adoptado las instancias de Inf2 para sus aplicaciones de aprendizaje profundo e IA generativa.
AWS Neuron SDK ayuda a los desarrolladores a desplegar modelos en los chips AWS Inferentia, así como a entrenarlos en los chips AWS Trainium. Se integra de forma nativa con marcos populares, como PyTorch y TensorFlow, para que pueda continuar utilizando su código y los flujos de trabajo existentes y ejecutarlos en los chips Inferentia.
Beneficios de usar AWS Inferentia
Cada chip Inferentia de primera generación tiene cuatro NeuronCores de primera generación y cada instancia Inf1 de EC2 cuenta con hasta dieciséis chips Inferentia. Cada chip Inferentia2 tiene dos NeuronCores de segunda generación y cada instancia Inf2 de EC2 posee hasta doce chips Inferentia2. Cada chip Inferentia2 admite hasta ciento noventa teraoperaciones de coma flotante por segundo de rendimiento FP16. La primera generación de Inferentia tiene 8 GB de memoria DDR4 por chip y también cuenta con una gran cantidad de memoria en el chip. Inferentia2 ofrece 32 GB de HBM por chip, lo que multiplica por cuatro la memoria total y por diez el ancho de banda de la memoria con respecto a Inferentia.
AWS Neuron SDK se integra de forma nativa con marcos de trabajo de machine learning populares como PyTorch y TensorFlow. AWS Neuron le permite usar estos marcos a fin de desplegar de manera óptima modelos de aprendizaje profundo en ambos chips de AWS Inferentia. Asimismo, Neuron está diseñado para minimizar los cambios en el código y la vinculación a soluciones específicas del proveedor. Neuron le permite ejecutar sus aplicaciones de inferencia de cara a la comprensión o al procesamiento de lenguaje natural (NLP), la traducción de idiomas, el resumen de textos, la generación de vídeos e imágenes, el reconocimiento de voz, la personalización, la detección de fraudes, y mucho más, en chips Inferentia.
La primera generación de Inferentia admite tipos de datos FP16, BF16 e INT8. Inferentia2 agrega soporte adicional para FP32, TF32 y el nuevo tipo de datos FP8 configurable (cFP8) a fin de proporcionar a los desarrolladores más flexibilidad para optimizar el rendimiento y precisión. AWS Neuron toma modelos FP32 de alta precisión y los convierte de forma automática en tipos de datos de menor precisión, al tiempo que optimiza la precisión y el rendimiento. La difusión automática reduce el tiempo de comercialización al eliminar la necesidad de un reentrenamiento de menor precisión.
Inferentia2 añade optimizaciones de hardware para tamaños de entrada dinámicos y operadores personalizados escritos en C++. También admite el redondeo estocástico, una forma de redondear de forma probabilística que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.
Las instancias de Inf2 ofrecen hasta un 50 % más de rendimiento por vatio en comparación con las instancias de Amazon EC2, ya que tanto estas como los chips subyacentes Inferentia2 están diseñados para poner en marcha modelos de aprendizaje profundo a escala. Gracias a las instancias Inf2 podrá alcanzar sus objetivos de sostenibilidad cuando despliegue modelos de gran tamaño.
Karakuri
Descubra cómo Karakuri ofrece IA de alto rendimiento y, al mismo tiempo, controla los costos con AWS Inferentia
Metagenomi
Descubra cómo Metagenomi redujo los costos de diseño de proteínas a gran escala en hasta un 56 % con AWS Inferentia
NetoAI
Descubra cómo NetoAI logró una latencia de inferencia de 300 a 600 ms con AWS Inferentia2
Tomofun
Descubra cómo Tomofun redujo los costos de despliegue de inferencias de BLIP en un 83 % al migrar a AWS Inferentia
SplashMusic
Descubra cómo SplashMusic redujo la latencia de inferencia en
hasta 10 veces con AWS Inferentia
Leonardo.ai
Nuestro equipo de Leonardo aprovecha la IA generativa para permitir a los profesionales y entusiastas de la creatividad producir recursos visuales con una calidad, velocidad y consistencia de estilo incomparables. Al usar AWS Inferentia2 podemos reducir nuestros costos en un 80 %, sin sacrificar el rendimiento, cambiando fundamentalmente la propuesta de valor que podemos ofrecer a los clientes, habilitando nuestras características más avanzadas a un punto de precio más accesible. También alivia las preocupaciones sobre el costo y la disponibilidad de capacidad para nuestros servicios auxiliares de IA, que son cada vez más importantes a medida que crecemos y escalamos. Es una tecnología clave para nosotros a medida que ampliamos los límites de lo que es posible con la IA generativa, lo que permite una nueva era de creatividad y poder expresivo para nuestros usuarios.
Pete Werner, director de IA, Leonardo.ai
Qualtrics
Qualtrics diseña y desarrolla software de administración de experiencias.
En Qualtrics, nuestro objetivo es crear tecnología que elimine las deficiencias en la experiencia de los clientes, empleados, marcas y productos. Para lograrlo, desarrollamos complejos modelos de aprendizaje profundo multitarea y multimodal para lanzar nuevas características, como la clasificación de textos, etiquetado de secuencias, análisis del discurso, extracción de frases clave, extracción de temas, agrupación y comprensión de conversaciones de principio a fin. A medida que usamos estos modelos más complejos en más aplicaciones, el volumen de datos no estructurados crece y necesitamos soluciones optimizadas para la inferencia que puedan satisfacer estas demandas, como las instancias Inf2, para ofrecer las mejores experiencias a nuestros clientes. Nos entusiasma la llegada de las nuevas instancias Inf2, porque no solo nos permitirán alcanzar mayores rendimientos, al tiempo que reducen drásticamente la latencia, sino que también introducen características como la inferencia distribuida y el soporte mejorado de formas de entrada dinámicas, que nos ayudarán a escalar para satisfacer las necesidades de despliegue a medida que avancemos hacia modelos grandes y más complejos.
Aaron Colak, director de Core Machine Learning de Qualtrics
Finch Computing
Finch Computing es una empresa de tecnología de lenguaje natural que proporciona aplicaciones de inteligencia artificial para clientes gubernamentales, de servicios financieros y de integración de datos.
Para satisfacer las necesidades de nuestros clientes de NLP en tiempo real, desarrollamos modelos de aprendizaje profundo de última generación que se escalan a grandes cargas de trabajo de producción. Tenemos que proporcionar transacciones de baja latencia y lograr altos rendimientos para procesar orígenes de datos globales. Hasta ahora, migramos muchas cargas de trabajo de producción a instancias Inf1 y logramos una reducción del 80 % en el costo con respecto a las GPU. Hoy en día, estamos desarrollando modelos más grandes y complejos que permitan obtener un significado más profundo del texto escrito. Muchos de nuestros clientes necesitan acceder a esta información en tiempo real y el rendimiento de las instancias Inf2 nos ayudará a ofrecer una latencia más baja y un mayor rendimiento en comparación con las instancias Inf1. Con las mejoras en el rendimiento de Inf2 y las nuevas características de Inf2, como la compatibilidad con tamaños de entrada dinámicos, mejoramos nuestra rentabilidad, elevamos la experiencia del cliente en tiempo real y ayudamos a nuestros clientes a obtener nuevos conocimientos de sus datos.
Franz Weckesser, arquitecto jefe de Finch Computing
Dataminr
Alertamos sobre muchos tipos de eventos en todo el mundo en muchos idiomas y en diferentes formatos (imágenes, video, audio, sensores de texto, combinaciones de todos estos tipos) desde cientos de miles de orígenes. Optimizar la velocidad y el costo dada esa escala es absolutamente fundamental para nuestro negocio. Con AWS Inferentia, hemos reducido la latencia de los modelos y hemos conseguido un rendimiento por dólar hasta 9 veces superior. Esto nos permitió aumentar la precisión de los modelos y expandir las capacidades de nuestra plataforma al desplegar modelos de aprendizaje profundo más sofisticados y procesar un volumen de datos cinco veces mayor, al mismo tiempo que mantenemos nuestros costos bajo control.
Alex Jaimes, científico jefe y vicepresidente senior de IA en Dataminr
Snap Inc.
Incorporamos el machine learning en muchos aspectos de Snapchat y el análisis de la innovación en este campo es una prioridad clave. Una vez que conocimos Inferentia, comenzamos a colaborar con AWS a fin de adoptar instancias Inf1/Inferentia que nos ayudaran con el despliegue de machine learning, incluidos el rendimiento y el costo. Comenzamos con nuestros modelos de recomendación y planificamos adoptar más modelos con las instancias Inf1 en el futuro.
Nima Khajehnouri, vicepresidente de Ingeniería, Snap Inc.
Sprinklr
La plataforma de administración unificada de la experiencia del cliente impulsada por IA de Sprinklr (Unified-CXM) permite a las empresas recopilar y traducir los comentarios de los clientes en tiempo real a través de varios canales a información procesable, lo que resulta en una resolución proactiva de problemas, desarrollo de productos mejorado, marketing de contenido mejorado, mejor servicio al cliente y mucho más. Mediante el uso de Inf1 de Amazon EC2, pudimos mejorar significativamente el rendimiento de uno de nuestros modelos de procesamiento de lenguaje natural y mejorar el rendimiento de uno de nuestros modelos de visión artificial. Planificamos seguir usando Inf1 de Amazon EC2 para ofrecer mejores servicios a nuestros clientes globales.
Vasant Srinivasan, vicepresidente sénior de Ingeniería de Productos, Sprinklr
Autodesk
Autodesk potencia la tecnología cognitiva de nuestro asistente virtual con tecnología de IA, Autodesk Virtual Agent (AVA), con el uso de Inferentia. AVA responde más de 100 000 preguntas de clientes al mes gracias a la comprensión del lenguaje natural (NLU) y las técnicas de aprendizaje profundo para extraer el contexto, la intención y el significado de las consultas. Mediante el uso de Inferentia, podemos obtener un rendimiento 4,9 veces mayor que G4dn para nuestros modelos de NLU y planificamos ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia.
Binghui Ouyang, científico de datos principal, Autodesk
Screening Eagle Technologies
El uso del georradar y la detección de defectos visuales suele ser el campo de los topógrafos expertos. Una arquitectura basada en microservicios de AWS nos permite procesar los videos capturados por los vehículos de inspección automatizados y los inspectores. Al migrar nuestros modelos internos de las instancias tradicionales basadas en la GPU a Inferentia, pudimos reducir los costos en un 50 %. Además, pudimos ver mejoras de rendimiento cuando comparamos los tiempos con una instancia de GPU G4dn. Nuestro equipo planifica ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia.
Jesús Hormigo, director general de nube e IA, Screening Eagle Technologies
NTT PC Communications Inc.
NTT PC Communications, un proveedor de soluciones de comunicaciones y servicios de red en Japón, es líder en telecomunicaciones en la introducción de nuevos productos innovadores en el mercado de tecnologías de la información y las comunicaciones.
NTT PC desarrolló AnyMotion, un servicio de plataforma de API de análisis de movimiento basado en modelos avanzados de ML de estimación de postura. Desplegamos nuestra plataforma AnyMotion en instancias Inf1 de Amazon EC2 mediante Amazon ECS para ofrecer un servicio de orquestación de contenedores totalmente administrado. Al desplegar nuestros contenedores AnyMotion en Inf1 de Amazon EC2, obtuvimos un rendimiento 4,5 veces mayor, una latencia de inferencia un 25 % menor y un costo un 90 % menor en comparación con las instancias de EC2 basadas en GPU de la generación actual. Estos resultados superiores mejorarán la calidad del servicio AnyMotion a escala.
Toshiki Yanagisawa, ingeniero de software en NTT PC Communications Inc.
Anthem
Anthem es una de las principales compañías de seguros de salud de los EE. UU. Atiende las necesidades de atención médica de más de 40 millones de miembros en docenas de estados.
El ritmo de crecimiento del mercado de las plataformas digitales aún es extraordinario. La recopilación de información sobre este mercado es una tarea difícil debido a la gran cantidad de datos de las opiniones de los clientes y a su naturaleza desestructurada. Nuestra aplicación automatiza la generación de conocimientos procesables a partir de las opiniones de los clientes a través de modelos de lenguaje natural de aprendizaje profundo (Transformers). Nuestra aplicación hace un uso intensivo de la computación y se tiene que implementar de una manera muy eficiente. Desplegamos sin problemas nuestra carga de trabajo de inferencia de aprendizaje profundo en las instancias Inf1 de Amazon EC2 impulsadas por el procesador de AWS Inferentia. Las nuevas instancias Inf1 ofrecen un rendimiento dos veces mayor que el de las instancias basadas en GPU y nos han permitido optimizar nuestras cargas de trabajo de inferencia.
Numan Laanait y Miro Mihaylov, PhDs, científicos principales de IA y datos en Anthem