Chips de IA de AWS

AWS Neuron

SDK para optimizar la IA y el aprendizaje profundo en AWS Trainium y AWS Inferentia

Introducción a AWS Neuron

¿Qué es AWS Neuron?

AWS Neuron es la plataforma que los desarrolladores usan para ejecutar cargas de trabajo de aprendizaje profundo e IA generativa en AWS Trainium y AWS Inferentia. Como está basada en una base de código abierto, Neuron permite a los desarrolladores crear, desplegar y explorar de forma nativa con los marcos PyTorch y JAX y con bibliotecas de machine learning como HuggingFace, vLLM, PyTorch Lightning y otros sin modificar el código. Incluye un compilador, una versión ejecutable, bibliotecas de capacitación e inferencia y herramientas para desarrolladores para la supervisión, la creación de perfiles y la depuración. Neuron respalda su ciclo de vida de desarrollo de machine learning (ML) de extremo a extremo, incluida la creación e implementación de modelos de IA y aprendizaje profundo, la optimización para lograr el mayor rendimiento y el menor costo, y la obtención de información más profunda sobre el comportamiento de los modelos.

Neuron permite procesos de experimentación rápida, la capacitación a escala de producción de modelos de vanguardia, la optimización del rendimiento de bajo nivel a través de Neuron Kernel Interface (NKI) para núcleos personalizados, el despliegue de inferencias con costos optimizados para cargas de trabajo de IA agencial y aprendizaje por refuerzo, y la creación de perfiles y la depuración integrales con Neuron Explorer.

An abstract illustration of a human head silhouette filled with colorful geometric data patterns and lines, representing artificial intelligence and machine learning concepts.

Diseñado para investigadores

Neuron permite una investigación rápida de la IA al ejecutar el código nativo de PyTorch sin cambios en Trainium. Los investigadores pueden probar nuevas ideas e iterar rápidamente gracias a la compatibilidad con el modo Eager de PyTorch. El escalado es fácil con las bibliotecas distribuidas de PyTorch, como FSDP, DDP y DTensor, que permiten fragmentar modelos en chips o escalarlos a varios nodos. Neuron es compatible con torch.compile, así que bibliotecas como TorchTitan y HuggingFace Transformers ahora funcionan directamente en Trainium sin modificaciones. Además, los desarrolladores de JAX pueden utilizar Neuron para desarrollar, optimizar y desplegar fácilmente sus modelos en Inferentia y Trainium.

Más información

Abstract digital illustration featuring concentric rings of pink brick-like segments on a dark blue background, representing AWS security, identity, and compliance concepts.

Diseñado para la productividad

Neuron optimiza la economía de la inferencia para las cargas de trabajo de IA agencial y aprendizaje por refuerzo. Las API estándar de vLLM V1 funcionan en Trainium e Inferentia con un alto rendimiento y están listas para usar; además, brindan características como el paralelismo experto, la inferencia desagregada, la decodificación especulativa y núcleos optimizados de Neuron Kernel Library para maximizar la economía de los tokens a escala.  Los desarrolladores de ML pueden capacitarse con HuggingFace Optimum Neuron, PyTorch Lightning y TorchTitan, y luego desplegar la inferencia con las API de vLLM estándar.

A vibrant abstract background featuring a pattern of colorful rectangular shapes arranged in horizontal rows, with various shades of blue, red, purple, pink, and yellow.

Diseñado para la innovación

La creación de modelos de IA requiere una innovación rápida y una optimización del rendimiento. Si bien los marcos estándar como PyTorch facilitan la ampliación de la experimentación, ampliar los límites del rendimiento requiere optimizar todo el conjunto (chip, servidor y UltraServer). Neuron proporciona a los ingenieros de rendimiento de ML un acceso sin igual a nuestros chips de IA de AWS, a través de Neuron Kernel Interface (NKI), información más profunda a través de Neuron Explorer y nuestra biblioteca de kernel optimizada llamada Neuron Kernel Library (NKILib). NKI proporciona las API necesarias para la asignación de memoria, la programación de la ejecución y el acceso directo a Trainium ISA, lo que permite controlar la programación a nivel de instrucción. El compilador de NKI es de código abierto, se basa en MLIR y proporciona a los desarrolladores visibilidad de todo el proceso de compilación. Neuron Kernel Library de código abierto proporciona despliegues optimizados con código fuente, documentación y puntos de referencia. Neuron Explorer proporciona un conjunto unificado de herramientas que guía a los desarrolladores en su proceso de optimización del rendimiento y depuración. Los ingenieros de rendimiento pueden rastrear la ejecución desde el código fuente hasta las operaciones de hardware, perfilar las aplicaciones distribuidas y de un solo nodo y recibir información con tecnología de IA y recomendaciones prácticas para optimizar el núcleo y mejorar el rendimiento.

Abstract illustration featuring various geometric shapes, such as triangles, circles, rectangles, and grids, in gradient pastel yellow and purple tones on a lavender background. Arrows and dotted lines add motion and connectivity, suitable for themes of application integration and creative design.

Desarrollado para el código abierto

La innovación de la IA prospera en las comunidades abiertas donde los desarrolladores pueden inspeccionar, modificar y contribuir el contenido. Neuron se ha comprometido con la comunidad de código abierto y con la mejora de la innovación. A medida que trasladamos más partes de nuestro paquete al código abierto, NKI Compiler, Neuron Kernel Driver, Neuron Kernel Library, NxD Inference, Neuron Explorer y PyTorch, hoy en día las integraciones de JAX y vLLM están disponibles totalmente en formato de código abierto. Las bibliotecas y herramientas de código abierto permiten a los desarrolladores inspeccionar los despliegues de los compiladores, contribuir con optimizaciones y adaptar el código del núcleo sin barreras. Cree con nosotros.

An abstract background featuring flowing, multicolored waves beneath a variety of geometric shapes (such as circles, rectangles, hexagons, and triangles) on a dark backdrop. The image visually suggests data visualization, analytics, or machine learning concepts.

Conozca Neuron

Neuron proporciona una integración nativa con PyTorch, lo que permite a los investigadores y desarrolladores de ML ejecutar el código existente sin cambios en Trainium. Las API estándar, incluidas FSDP, DDP y DTensor, funcionan a la perfección para el entrenamiento distribuido en configuraciones de varios nodos. Las bibliotecas de ML más populares, como TorchTitan, HuggingFace Optimum Neuron, PyTorch Lightning y otras, se ejecutan directamente con modificaciones mínimas. Entrene modelos con flujos de trabajo y herramientas familiares con aprendizaje por refuerzo antes y después del proceso de capacitación, al tiempo que aprovecha las ventajas de rendimiento y costo de Trainium tanto para la experimentación como para la capacitación a escala de la producción.

Neuron permite el despliegue de inferencias de producción con marcos y API estándar en Trainium e Inferentia. Asimismo, la integración de vLLM con las API estándar ofrece un servicio de alto rendimiento con núcleos optimizados de Neuron Kernel Library. Las características avanzadas, como el paralelismo experto, la inferencia desagregada y la decodificación especulativa, maximizan los tokens por segundo y minimizan el costo por token. Despliegue cargas de trabajo de IA agencial y aprendizaje por refuerzo a escala con optimizaciones de rendimiento listas para usar.

Para los ingenieros de rendimiento que buscan la máxima eficiencia del hardware, Neuron proporciona un control total a través de Neuron Kernel Interface (NKI); además, tienen acceso directo al conjunto de instrucciones de NeuronISA, la asignación de memoria y la programación de la ejecución. Los desarrolladores pueden crear nuevas operaciones que no estén disponibles en los marcos estándar y optimizar el código de rendimiento crítico con núcleos personalizados. El compilador NKI de código abierto, basado en MLIR, proporciona transparencia en los procesos de compilación. Neuron Kernel Library ofrece núcleos optimizados y listos para la fase de producción con código fuente completo, documentación y puntos de referencia.

Neuron Explorer proporciona un conjunto unificado de herramientas que guía a los desarrolladores en su proceso de optimización del rendimiento y depuración. Al consolidar la creación de perfiles, la depuración, el despliegue de optimizaciones y la validación de las mejoras en un único entorno, ya no perderá más tiempo en herramientas fragmentadas gracias a Neuron Explorer. La creación de perfiles jerárquicos con enlaces de código para PyTorch, JAX y NKI permite realizar un seguimiento del proceso de ejecución desde el código fuente hasta las operaciones de hardware. Las recomendaciones con tecnología de IA analizan los perfiles para identificar cuellos de botella y ofrecer información útil para las estrategias de partición y la optimización del núcleo. La interfaz de usuario es de código abierto en GitHub.

Neuron proporciona capacidades integrales de supervisión y observabilidad que permiten a los desarrolladores de ML y a los equipos de MLOps mantener la excelencia operativa para los despliegues de producción. La integración nativa de Amazon CloudWatch permite la supervisión centralizada de toda la infraestructura de ML y ofrece soporte para aplicaciones en contenedores en Kubernetes y Amazon EKS. Las integraciones de plataformas de socios con herramientas como Datadog amplían la observabilidad con supervisiones, registros y alertas unificados. Neuron ofrece utilidades que incluyen neuron-top para poder realizar una supervisión en tiempo real, Neuron Monitor para la recopilación de métricas, neuron-ls para la lista de dispositivos y Neuron Sysfs para obtener información detallada del sistema.

Neuron simplifica el despliegue para los desarrolladores de ML y los equipos de MLOps con entornos preconfigurados y herramientas de infraestructura. Las AMI de aprendizaje profundo (DLAMI) y los contenedores de aprendizaje profundo (DLC) de Neuron ofrecen la pila de software de Neuron, los marcos populares y las bibliotecas esenciales. Para los despliegues de Kubernetes, el complemento del dispositivo Neuron administra la asignación de recursos, la extensión del programador Neuron proporciona una ubicación inteligente de las cargas de trabajo y el controlador de Asignación de recursos dinámica (DRA) evita la complejidad de la topología del hardware con una selección intuitiva de recursos basada en el tamaño. Los gráficos de Helm simplifican la orquestación de los despliegues en los contenedores.

Cree con Neuron

Uso de imágenes de máquina de Amazon (AMI) de aprendizaje profundo

Las imágenes de máquina de Amazon (AMI) de aprendizaje profundo de Neuron (DLAMI de Neuron) están preconfiguradas con el SDK de Neuron, marcos populares y bibliotecas útiles, lo que le permite comenzar rápidamente a capacitar y ejecutar inferencias en AWS Inferentia. Las DLAMI de Neuron agilizan su flujo de trabajo y optimizan el rendimiento, ya que eliminan las complejidades de configuración para que pueda centrarse en crear y desplegar modelos de IA. Introducción a las DLAMI de Neuron.

Introducción

Uso de contenedores de aprendizaje profundo

Despliegue modelos con rapidez mediante contenedores de aprendizaje profundo de AWS Neuron (DLC de Neuron) preconfigurados con marcos optimizados para Trainium e Inferentia. Para obtener soluciones personalizadas, cree sus propios contenedores y aproveche las características de Kubernetes, como el complemento del dispositivo Neuron, la extensión del programador Neuron y el gráfico de Helm. Integre sin problemas los servicios de AWS, como Amazon EKS, AWS Batch y Amazon ECS, para lograr despliegues escalables. Introducción a los DLC de Neuron.

Introducción

Uso de Hugging Face

Optimum Neuron une Hugging Face Transformers con el SDK de AWS Neuron y proporciona API Hugging Face estándar para Trainium e Inferentia. Ofrece soluciones tanto para la capacitación como para la inferencia, incluida la compatibilidad con el entrenamiento del modelo a gran escala y el despliegue de flujos de trabajo de IA. Optimum Neuron, compatible con Amazon SageMaker y con contenedores de aprendizaje profundo prediseñados, simplifica el uso de Trainium e Inferentia para ML. Esta integración permite a los desarrolladores trabajar con interfaces conocidas de Hugging Face y, al mismo tiempo, aprovechar Trainium e Inferentia para sus proyectos basados en transformadores. Introducción a Hugging Face Optimum Neuron.

Introducción

Uso de Amazon SageMaker JumpStart

Puede usar Amazon SageMaker JumpStart para entrenar e implementar modelos con Neuron. JumpStart brinda soporte para refinar y desplegar modelos populares, como la familia de modelos Meta Llama. Introducción a SageMaker JumpStart.

Introducción

Pasos siguientes

Introducción

Introducción a Amazon SageMaker JumpStart

Más información

Introducción

Introducción a Neuron DLAMIs en Amazon Elastic Compute Cloud (Amazon EC2)

Más información

AWS Neuron

¿Qué es AWS Neuron?

Diseñado para investigadores

Diseñado para la productividad

Diseñado para la innovación

Desarrollado para el código abierto

Conozca Neuron

Cree con Neuron

Uso de imágenes de máquina de Amazon (AMI) de aprendizaje profundo

Uso de contenedores de aprendizaje profundo

Uso de Hugging Face

Uso de Amazon SageMaker JumpStart

Pasos siguientes

Introducción a Amazon SageMaker JumpStart

Introducción a Neuron DLAMIs en Amazon Elastic Compute Cloud (Amazon EC2)

Aprender

Recursos

Desarrolladores

Ayuda

AWS Neuron

¿Qué es AWS Neuron?

Diseñado para investigadores

Diseñado para la productividad

Diseñado para la innovación

Desarrollado para el código abierto

Conozca Neuron

Capacitación e inferencia con Neuron

Neuron Kernel Interface (NKI)

Neuron Explorer

Supervisión y observabilidad

Despliegue e infraestructura

Cree con Neuron

Uso de imágenes de máquina de Amazon (AMI) de aprendizaje profundo

Uso de contenedores de aprendizaje profundo

Uso de Hugging Face

Uso de Amazon SageMaker JumpStart

Pasos siguientes

Introducción a Amazon SageMaker JumpStart

Introducción a Neuron DLAMIs en Amazon Elastic Compute Cloud (Amazon EC2)

Aprender

Recursos

Desarrolladores

Ayuda