Saltar al contenido principal

Introducción a las instancias Trn2 con AWS Neuron

Computación de EC2 de alto rendimiento para el entrenamiento y la inferencia de IA generativa

¿Por qué elegir instancias y UltraServers Trn2 de Amazon EC2?

Las instancias Trn2 de Amazon EC2, equipadas con 16 chips AWS Trainium2, están diseñadas específicamente para la IA generativa y ofrecen instancias de EC2 de alto rendimiento, capaces de entrenar e implementar modelos con entre cientos de miles de millones y más de un billón de parámetros. Las instancias Trn2 ofrecen una relación precio-rendimiento entre un 30 y un 40 % mejor que las instancias P5e y P5en de EC2 basadas en GPU. Con las instancias Trn2, puede obtener un rendimiento de inferencia y entrenamiento de vanguardia y, al mismo tiempo, reducir los costos, de modo que puede reducir los tiempos de entrenamiento, realizar iteraciones más rápido y ofrecer experiencias impulsadas por la IA en tiempo real. Puede usar las instancias Trn2 para entrenar e implementar modelos que incluyen modelos de lenguaje de gran tamaño (LLM), modelos multimodales y transformadores de difusión para crear aplicaciones de IA generativa de última generación.

Para reducir los tiempos de entrenamiento y ofrecer tiempos de respuesta innovadores (latencia por token) para los modelos más exigentes y vanguardistas, es posible que necesite más capacidad de cómputo y memoria de los que puede ofrecer una sola instancia. Los UltraServers Trn2 utilizan NeuronLink, nuestra interconexión exclusiva de chip a chip, para conectar 64 chips Trainium2 en cuatro instancias Trn2, lo que cuadruplica la capacidad de cómputo, memoria y el ancho de banda de la red disponible en un solo nodo, y ofrece un rendimiento sin precedentes en AWS para cargas de trabajo de aprendizaje profundo e IA generativa. A modo de inferencia, los UltraServers ayudan a ofrecer un tiempo de respuesta líder en la industria con el objetivo de crear las mejores experiencias en tiempo real. En cuanto al entrenamiento, los UltraServers aumentan la velocidad y la eficiencia del entrenamiento de modelos con una comunicación colectiva más rápida para lograr el paralelismo de modelos en comparación con las instancias independientes.

Puede comenzar fácilmente con las instancias Trn2 y los UltraServers Trn2 con soporte nativo para los marcos de machine learning (ML) más populares, como PyTorch y JAX.

“Los UltraServers Trn2 ya están disponibles para las cargas de trabajo de IA generativa más exigentes”.

Beneficios

Las instancias Trn2 ayudan a reducir los tiempos de entrenamiento y a ofrecer una experiencia de inferencia en tiempo real a los usuarios finales. Las instancias Trn2 cuentan con 16 chips Trainium2 interconectados con NeuronLink, nuestra interconexión exclusiva de chip a chip, para ofrecer hasta 20,8 petaflops de computación FP8. Las instancias Trn2 tienen un total de 1,5 TB de HBM3 con 46 terabytes por segundo (Tbps) de ancho de banda de memoria y 3,2 terabits por segundo (Tbps) de redes de adaptadores de Elastic Fabric (EFAv3). Los servidores UltraServer Trn2 (disponibles en vista previa) tienen 64 chips Trainium2 conectados con NeuronLink y ofrecen hasta 83,2 petaflops de procesamiento FP8, 6 TB de memoria total de alto ancho de banda con 185 Tbps de ancho de banda de memoria total y 12,8 Tbps de red EFAv3.

Para permitir un entrenamiento distribuido eficiente, las instancias Trn2 ofrecen 3,2 Tbps y los UltraServer Trn2 ofrecen 12,8 Tbps de redes EFAv3. EFA se basa en AWS Nitro System, lo que significa que todas las comunicaciones a través de EFA se cifran en tránsito sin incurrir en ninguna penalización de rendimiento. EFA también utiliza un sofisticado protocolo de enrutamiento de tráfico y control de congestión que permite escalar de manera confiable a cientos de miles de chips Trainium2. Las instancias y los UltraServer Trn2 se están implementando en los UltraClusters de EC2 para permitir el entrenamiento distribuido y escalable en decenas de miles de chips Trainium en una red sin bloqueos con una sola escala de petabits.

Las instancias Trn2 ofrecen una relación precio-rendimiento entre un 30 y un 40 % mejor que las instancias P5e y P5en de EC2 basadas en GPU

Las instancias Trn2 son 3 veces más eficientes desde el punto de vista energético que las instancias Trn1. Estas instancias y los chips subyacentes usan procesos de chips avanzados y optimizaciones de hardware y software para ofrecer una alta eficiencia energética cuando se ejecutan cargas de trabajo de IA generativa a escala.

El SDK de AWS Neuron le ayuda a extraer el máximo rendimiento de las instancias y los UltraServers Trn2. Neuron se integra de forma nativa con JAX, PyTorch y bibliotecas esenciales como Hugging Face, PyTorch Lightning y otros. Neuron está diseñado para que los investigadores y exploradores de IA logren un rendimiento sin precedentes. Gracias a la integración nativa de PyTorch, puede entrenar e implementar sin cambiar una sola línea de código. Para los ingenieros de rendimiento de IA, hemos permitido un acceso más profundo a Trainium 2, de modo que puedan ajustar el rendimiento, personalizar los núcleos y llevar sus modelos aún más lejos. Con Neuron puede usar instancias Trn2 con servicios como Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster y AWS Batch, así como con servicios de terceros como Ray (Anyscale), Domino Data Lab y Datadog. Dado que la innovación se nutre de la apertura, Neuron asume el compromiso de fomentar la innovación a través del código abierto y una amplia con la extensa comunidad de la IA.

Características

Las instancias Trn2 cuentan con 16 chips Trainium2 interconectados con NeuronLink para ofrecer hasta 20,8 petaflops de computación FP8. Los Trn2 UltraServers amplían la conectividad de NeuronLink a 64 chips Trainium2 en cuatro instancias de Trn2 para ofrecer hasta 83,2 petaflops de computación FP8.

Las instancias Trn2 ofrecen 1,5 TB de memoria de aceleración con 46 TBps de ancho de banda total de memoria. Los UltraServer Trn2 ofrecen 6 TB de memoria aceleradora compartida con 185 TBps de ancho de banda memoria total para adaptarse a modelos fundacionales de gran tamaño.

Para respaldar el entrenamiento distribuido y escalable de modelos básicos de gran tamaño, las instancias Trn2 ofrecen 3,2 Tbps y los Trn2 UltraServer ofrecen 12,8 Tbps de ancho de banda de la red EFAv3. Cuando se combina con los UltraClusters de EC2, EFAv3 ofrece una latencia de red más baja en comparación con EFAv2. Cada instancia de Trn2 admite hasta 8 TB y cada UltraServer de Trn2 admite hasta 32 TB de almacenamiento NVMe local para un acceso más rápido a grandes conjuntos de datos.

Las instancias Trn2 y los UltraServer admiten los tipos de datos FP32, TF32, BF16, FP16 y los tipos de datos FP8 configurables (cFP8). También admite optimizaciones de IA de vanguardia, que incluyen una dispersión 4 veces mayor (16:4), el redondeo estocástico y los motores colectivos dedicados. Neuron Kernel Interface (NKI) permite el acceso directo a la arquitectura del conjunto de instrucciones (ISA) mediante un entorno basado en Python con una interfaz similar a Triton, lo que le permite innovar en arquitecturas de nuevos modelos y kernels de computación altamente optimizados que superan a las técnicas existentes.

Neuron admite más de 100 000 modelos en el centro de modelos Hugging Face para su entrenamiento e implementación en Trn2, incluidas las arquitecturas de modelos populares, como Llama y Stable Diffusion. Neuron se integra de forma nativa con JAX, PyTorch y herramientas, marcos y bibliotecas esenciales como NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab y Data Dog. Optimiza los modelos listos para usar de cara al entrenamiento y a la inferencia distribuidos, al mismo tiempo que proporciona información detallada destinada a la creación de perfiles y a la depuración. Neuron también se integra con servicios como Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster y AWS Batch.

Testimonios de clientes y socios

Estos son algunos ejemplos de cómo los clientes y los socios planean lograr sus objetivos empresariales con las instancias Trn2 de Amazon EC2.

Anthropic

En Anthropic, millones de personas confían a diario en Claude para realizar sus trabajos. Anunciamos dos avances importantes con AWS. En primer lugar, un nuevo “modo optimizado para latencia” para Claude 3.5 Haiku, que funciona un 60 % más rápido en Trainium2 a través de Amazon Bedrock. En segundo lugar, el Proyecto Rainier. Se trata de un clúster nuevo con cientos de miles de chips Trainium2 que ofrecen cientos de exaflops, lo que supone más de cinco veces el tamaño de nuestro clúster anterior. El Proyecto Rainier ayudará a impulsar tanto nuestra investigación como nuestra próxima generación de escalamiento. Para nuestros clientes, esto significa más inteligencia, precios más bajos y velocidades más rápidas. No solo estamos creando una IA más rápida, sino también una IA fiable que escale.

Tom Brown, director de Información de Anthropic
Missing alt text value

Databricks

Mosaic AI de Databricks permite a las organizaciones crear e implementar sistemas de agentes de calidad. Se crea de forma nativa sobre el lakehouse de datos, lo que permite a los clientes personalizar sus modelos de forma fácil y segura con datos empresariales y ofrecer resultados más precisos y específicos de cada dominio. Gracias al alto rendimiento y la rentabilidad de Trainium, los clientes pueden escalar el entrenamiento del modelo en Mosaic AI a un costo bajo. La disponibilidad de Trainium2 será un beneficio importante para Databricks y sus clientes, ya que la demanda de Mosaic AI sigue creciendo en todos los segmentos de clientes y en todo el mundo. Databricks, una de las empresas de datos e IA más grandes del mundo, planea utilizar TRN2 para ofrecer mejores resultados y reducir el TCO hasta en un 30 % para sus clientes.

Naveen Rao, vicepresidente de IA generativa de Databricks
Missing alt text value

poolside

En poolside, queremos construir un mundo en el que la IA impulse la mayoría del trabajo de valor económico y el progreso científico. Creemos que el desarrollo de software será la primera capacidad importante de las redes neuronales que alcance el nivel de inteligencia humana, ya que es el dominio en el que mejor se pueden combinar los enfoques de búsqueda y aprendizaje. Por lo tanto, estamos creando modelos fundacionales, una API y un asistente para llevar el poder de la IA generativa a las manos (o al teclado) de los desarrolladores. Una de las claves para habilitar esta tecnología es la infraestructura que utilizamos para crear y ejecutar nuestros productos. Gracias a AWS Trainium2, nuestros clientes podrán escalar el uso de poolside con una relación precio-rendimiento diferente a la de otros aceleradores de IA. Además, planeamos entrenar los modelos futuros con Trainium2 UltraServer, con un ahorro previsto del 40 % en comparación con las instancias P5 de EC2.

Eiso Kant, director de tecnología y cofundador de poolside
The Poolside logo featuring a stylized circular icon and the word 'poolside' in a modern blue font on a transparent background.

Itaú Unibanco

El propósito de Itaú Unibanco es mejorar la relación de las personas con el dinero, lo que crea un impacto positivo en sus vidas y amplía sus oportunidades de transformación. En Itaú Unibanco, creemos que cada cliente es único y nos enfocamos en satisfacer sus necesidades a través de viajes digitales intuitivos, que aprovechan el poder de la IA para adaptarse constantemente a sus hábitos de consumo.

Probamos AWS Trainium e Inferentia en varias tareas, que van desde la inferencia estándar hasta aplicaciones ajustadas. El rendimiento de estos chips de IA nos ha permitido alcanzar hitos importantes en la investigación y el desarrollo. En las tareas de inferencia por lotes y en línea, observamos que el rendimiento mejoró 7 veces en comparación con las GPU. Este rendimiento mejorado está impulsando la expansión de más casos de uso en toda la organización. La última generación de chips Trainium2 desbloquea características innovadoras para GenAI y abre la puerta a la innovación en Itaú.

Vitor Azeka, director de Ciencia de Datos de Itaú Unibanco
Missing alt text value

NinjaTech AI

Ninja es un agente de IA completo para que busca lograr una productividad ilimitada: una suscripción simple, acceso ilimitado a los mejores modelos de IA del mundo y las mejores habilidades de IA, como la escritura, la codificación, la lluvia de ideas, la generación de imágenes y la investigación en línea. Ninja es una plataforma de agentes y ofrece “SuperAgent”, que utiliza una mezcla de agentes con una precisión de primera clase comparable a la de los modelos fundacionales de frontera (y en algunas categorías la supera). La tecnología agente de Ninja exige aceleradores de alto rendimiento para ofrecer las experiencias únicas en tiempo real que nuestros clientes esperan. 

Estamos muy entusiasmados con el lanzamiento de AWS TRN2 porque creemos que ofrecerá el mejor costo por token y la mayor velocidad posible de la actualidad para nuestro modelo principal Ninja LLM, que se basa en Llama 3.1 405B. Es increíble ver la baja latencia de Trn2, junto con los precios competitivos y la disponibilidad bajo demanda. No podríamos estar más entusiasmados con la llegada de Trn2.

Babak Pahlavan, fundador y director ejecutivo de NinjaTech AI
Missing alt text value

Ricoh

El equipo de machine learning de RICOH desarrolla soluciones para el lugar de trabajo y servicios de transformación digital diseñados para administrar y optimizar el flujo de información en nuestras soluciones empresariales.

La migración a las instancias Trn1 fue sencilla. Pudimos entrenar previamente nuestro LLM de 13 000 millones de parámetros en solo 8 días con un clúster de 4096 chips Trainium. Luego del éxito que obtuvimos con nuestro modelo más pequeño, ajustamos un LLM nuevo y más grande basado en Llama-3-Swallow-70B y, gracias a Trainium, pudimos reducir un 50 % nuestros costos de entrenamiento y mejorar un 25% la eficiencia energética en comparación con el uso de las máquinas GPU más recientes de AWS. Nos entusiasma aprovechar la última generación de chips de IA de AWS, Trainium2, para seguir ofreciendo a nuestros clientes el mejor rendimiento al costo más bajo.

Yoshiaki Umetsu, director del Centro de Desarrollo de Tecnología Digital de Ricoh
Missing alt text value

PyTorch

Lo que más me gustó de la biblioteca de NxD Inference de AWS Neuron es cómo se integra perfectamente con los modelos de PyTorch. El enfoque de NxD es sencillo y fácil de utilizar. Nuestro equipo pudo incorporar los modelos de PyTorch en HuggingFace con cambios mínimos en el código y en poco tiempo. La habilitación de características avanzadas como el procesamiento por lotes continuo y la decodificación especulativa fue sencilla. El uso sencillo mejora la productividad de los desarrolladores, lo que permite a los equipos centrarse más en la innovación y menos en los desafíos de integración.

Hamid Shojanazeri, PyTorch Partner Engineering Lead de Meta
Missing alt text value

Refact.ai

Refact.ai ofrece herramientas de IA completas, como el autocompletado de código con generación aumentada por recuperación (RAG), que proporciona sugerencias más precisas, y un chat que se adapta al contexto mediante modelos patentados y de código abierto.

Los clientes han alcanzado hasta un 20 % más de rendimiento y 1,5 veces más de tokens por dólar con las instancias Inf2 de EC2 en comparación con las instancias G5 de EC2. Las capacidades de ajuste de Refact.ai mejoran aún más la capacidad de nuestros clientes para comprender y adaptarse al entorno y al código base único de sus organizaciones. Nos complace también ofrecer las capacidades de Trainium2, que brindarán un procesamiento aún más rápido y eficiente a nuestros flujos de trabajo. Esta tecnología avanzada permitirá a nuestros clientes acelerar el proceso de desarrollo de software, ya que aumenta la productividad de los desarrolladores y, al mismo tiempo, mantiene estrictos estándares de seguridad para la base de código.

Oleg Klimov, director ejecutivo y fundador de Refact.ai
Missing alt text value

Karakuri Inc.

KARAKURI crea herramientas de IA para mejorar la eficacia de la atención al cliente basada en la web y simplificar la experiencia de los clientes. Estas herramientas incluyen chatbots de IA equipados con funciones de IA generativa, herramientas de centralización de preguntas frecuentes y una herramienta de respuesta por correo electrónico, todo lo cual mejora la eficiencia y la calidad de la atención al cliente. Gracias a AWS Trainium, logramos entrenar KARAKURI LM 8x7B Chat v0.1. Las empresas emergentes, como nosotros, necesitamos optimizar el tiempo de creación y el costo requerido para entrenar a los LLM. Con el apoyo de AWS Trainium y el equipo de AWS, logramos desarrollar un LLM de nivel práctico en poco tiempo. Además, con la adopción de AWS Inferentia pudimos crear un servicio de inferencia rápido y rentable. Estamos entusiasmados con Trainium2 porque revolucionará nuestro proceso de entrenamiento, reducirá nuestro tiempo de entrenamiento a la mitad e impulsará la eficiencia a niveles nuevos.

Tomofumi Nakayama, Co-Founder de Karakuri Inc.
Missing alt text value

Stockmark Inc.

Con la misión de “reinventar el mecanismo de creación de valor y hacer avanzar a la humanidad”, Stockmark ayuda a muchas empresas a crear y construir negocios innovadores al proporcionar tecnología de procesamiento del lenguaje natural de vanguardia. El nuevo servicio de análisis y recopilación de datos de Stockmark, llamado Anews, y SAT, un servicio de estructuración de datos que mejora drásticamente los usos de la IA generativa mediante la organización de todas las formas de información almacenada en una organización, nos obligaron a replantearnos la forma en que creamos e implementamos los modelos para respaldar estos productos. Con 256 aceleradores Trainium, desarrollamos y publicamos stockmark-13b, un modelo de lenguaje de gran tamaño con 13 000 millones de parámetros, previamente entrenado desde cero en un conjunto de datos japonés de 220 000 millones de tokens. Las instancias Trn1 nos ayudaron a reducir un 20% los costos de entrenamiento. Con Trainium, desarrollamos con éxito un LLM que puede responder a preguntas críticas empresariales de profesionales con una precisión y velocidad sin precedentes. Este logro es particularmente notable dado el desafío generalizado al que se enfrentan las empresas a la hora de conseguir recursos computacionales adecuados para el desarrollo de modelos. Con la impresionante reducción de costos y la velocidad de las instancias Trn1, nos entusiasma ver los beneficios adicionales que Trainium2 aportará a nuestros flujos de trabajo y clientes.

Kosuke Arima, director de tecnología y cofundador de Stockmark Inc.
Missing alt text value

Introducción

La compatibilidad de SageMaker con las instancias de Trn2 estará disponible próximamente. Podrá entrenar modelos con facilidad en instancias de Trn2 mediante Amazon SageMaker HyperPod, que proporciona un clúster de informática resiliente, un rendimiento de entrenamiento optimizado y un uso eficiente de los recursos de computación, de red y de memoria subyacentes. También puede escalar su implementación de modelos en instancias Trn2 utilizando SageMaker para administrar los modelos de manera más eficiente en la producción y reducir la carga operativa.

Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y profesionales de aprendizaje profundo (DL) la infraestructura y las herramientas necesarias para agilizar el DL en AWS a cualquier escala. Los controladores de AWS Neuron vienen preconfigurados en las DLAMI para entrenar los modelos de DL de forma óptima en instancias Trn2.

El soporte de los contenedores de aprendizaje profundo para las instancias de Trn2 estará disponible próximamente. Al usar estos contenedores, podrá implementar instancias Trn2 en Amazon Elastic Kubernetes Service (Amazon EKS), que es un servicio Kubernetes completamente administrado, así como en Amazon Elastic Container Service (Amazon ECS), que es un servicio de orquestación de contenedores completamente administrado. Neuron también está disponible de manera preinstalada en los contenedores de aprendizaje profundo de AWS. Para obtener más información sobre cómo ejecutar contenedores en instancias Trn2, consulte los tutoriales sobre contenedores de Neuron.

Detalles del producto

Instance Size
Available in EC2 UltraServers
Trainium2 chips
Accelerator memory
vCPUs
Memory (TB)
Instance storage (TB)
Network bandwidth (Tbps)
EBS bandwidth (Gbps)
Trn2.3xlarge

No

1

96 GB

12

128 GB

1x SSD NVMe de 470 GB

200

5

trn2.48xlarge
No
16
1,5 TB
192
2 TB
4 x 1,92 SSD NVMe
3,2
80
trn2u.48xlarge

16
1,5 TB
192
2 TB
4 x 1,92 SSD NVMe
3,2
80