- Producto›
- Machine Learning›
- AWS Neuron
AWS Neuron
SDK para optimizar la IA y el aprendizaje profundo en AWS Trainium y AWS Inferentia
¿Qué es AWS Neuron?
AWS Neuron es la plataforma que los desarrolladores usan para ejecutar cargas de trabajo de aprendizaje profundo e IA generativa en AWS Trainium y AWS Inferentia. Como está basada en una base de código abierto, Neuron permite a los desarrolladores crear, desplegar y explorar de forma nativa con los marcos PyTorch y JAX y con bibliotecas de machine learning como HuggingFace, vLLM, PyTorch Lightning y otros sin modificar el código. Incluye un compilador, una versión ejecutable, bibliotecas de capacitación e inferencia y herramientas para desarrolladores para la supervisión, la creación de perfiles y la depuración. Neuron respalda su ciclo de vida de desarrollo de machine learning (ML) de extremo a extremo, incluida la creación e implementación de modelos de IA y aprendizaje profundo, la optimización para lograr el mayor rendimiento y el menor costo, y la obtención de información más profunda sobre el comportamiento de los modelos.
Neuron permite procesos de experimentación rápida, la capacitación a escala de producción de modelos de vanguardia, la optimización del rendimiento de bajo nivel a través de Neuron Kernel Interface (NKI) para núcleos personalizados, el despliegue de inferencias con costos optimizados para cargas de trabajo de IA agencial y aprendizaje por refuerzo, y la creación de perfiles y la depuración integrales con Neuron Explorer.
Diseñado para investigadores
Neuron permite una investigación rápida de la IA al ejecutar el código nativo de PyTorch sin cambios en Trainium. Los investigadores pueden probar nuevas ideas e iterar rápidamente gracias a la compatibilidad con el modo Eager de PyTorch. El escalado es fácil con las bibliotecas distribuidas de PyTorch, como FSDP, DDP y DTensor, que permiten fragmentar modelos en chips o escalarlos a varios nodos. Neuron es compatible con torch.compile, así que bibliotecas como TorchTitan y HuggingFace Transformers ahora funcionan directamente en Trainium sin modificaciones. Además, los desarrolladores de JAX pueden utilizar Neuron para desarrollar, optimizar y desplegar fácilmente sus modelos en Inferentia y Trainium.
Diseñado para la productividad
Neuron optimiza la economía de la inferencia para las cargas de trabajo de IA agencial y aprendizaje por refuerzo. Las API estándar de vLLM V1 funcionan en Trainium e Inferentia con un alto rendimiento y están listas para usar; además, brindan características como el paralelismo experto, la inferencia desagregada, la decodificación especulativa y núcleos optimizados de Neuron Kernel Library para maximizar la economía de los tokens a escala. Los desarrolladores de ML pueden capacitarse con HuggingFace Optimum Neuron, PyTorch Lightning y TorchTitan, y luego desplegar la inferencia con las API de vLLM estándar.
Diseñado para la innovación
La creación de modelos de IA requiere una innovación rápida y una optimización del rendimiento. Si bien los marcos estándar como PyTorch facilitan la ampliación de la experimentación, ampliar los límites del rendimiento requiere optimizar todo el conjunto (chip, servidor y UltraServer). Neuron proporciona a los ingenieros dedicados al rendimiento de ML un acceso sin igual a nuestros chips de IA de AWS a través de Neuron Kernel Interface (NKI), información más detallada a través de Neuron Explorer y nuestra biblioteca de núcleos optimizada llamada Neuron Kernel Library (NKILib). NKI proporciona las API necesarias para la asignación de memoria, la programación de la ejecución y el acceso directo a Trainium ISA, lo que permite controlar la programación a nivel de instrucción. El compilador de NKI es de código abierto, se basa en MLIR y proporciona a los desarrolladores visibilidad de todo el proceso de compilación. Neuron Kernel Library de código abierto proporciona despliegues optimizados con código fuente, documentación y puntos de referencia. Neuron Explorer proporciona un conjunto unificado de herramientas que guía a los desarrolladores en su proceso de optimización del rendimiento y depuración. Los ingenieros de rendimiento pueden rastrear la ejecución desde el código fuente hasta las operaciones de hardware, perfilar las aplicaciones distribuidas y de un solo nodo y recibir información con tecnología de IA y recomendaciones prácticas para optimizar el núcleo y mejorar el rendimiento.
Desarrollado para el código abierto
La innovación de la IA prospera en las comunidades abiertas donde los desarrolladores pueden inspeccionar, modificar y contribuir el contenido. Neuron se ha comprometido con la comunidad de código abierto y con la mejora de la innovación. A medida que trasladamos más partes de nuestro paquete al código abierto, NKI Compiler, Neuron Kernel Driver, Neuron Kernel Library, NxD Inference, Neuron Explorer y PyTorch, hoy en día las integraciones de JAX y vLLM están disponibles totalmente en formato de código abierto. Las bibliotecas y herramientas de código abierto permiten a los desarrolladores inspeccionar los despliegues de los compiladores, contribuir con optimizaciones y adaptar el código del núcleo sin barreras. Cree con nosotros.
Conozca Neuron
Neuron proporciona una integración nativa con PyTorch, lo que permite a los investigadores y desarrolladores de ML ejecutar el código existente sin cambios en Trainium. Las API estándar, incluidas FSDP, DDP y DTensor, funcionan a la perfección para el entrenamiento distribuido en configuraciones de varios nodos. Las bibliotecas de ML más populares, como TorchTitan, HuggingFace Optimum Neuron, PyTorch Lightning y otras, se ejecutan directamente con modificaciones mínimas. Entrene modelos con flujos de trabajo y herramientas familiares con aprendizaje por refuerzo antes y después del proceso de capacitación, al tiempo que aprovecha las ventajas de rendimiento y costo de Trainium tanto para la experimentación como para la capacitación a escala de la producción.
Neuron permite el despliegue de inferencias de producción con marcos y API estándar en Trainium e Inferentia. Asimismo, la integración de vLLM con las API estándar ofrece un servicio de alto rendimiento con núcleos optimizados de Neuron Kernel Library. Las características avanzadas, como el paralelismo experto, la inferencia desagregada y la decodificación especulativa, maximizan los tokens por segundo y minimizan el costo por token. Despliegue cargas de trabajo de IA agencial y aprendizaje por refuerzo a escala con optimizaciones de rendimiento listas para usar.
Para los ingenieros de rendimiento que buscan la máxima eficiencia del hardware, Neuron proporciona un control total a través de Neuron Kernel Interface (NKI); además, tienen acceso directo al conjunto de instrucciones de NeuronISA, la asignación de memoria y la programación de la ejecución. Los desarrolladores pueden crear nuevas operaciones que no estén disponibles en los marcos estándar y optimizar el código de rendimiento crítico con núcleos personalizados. El compilador NKI de código abierto, basado en MLIR, proporciona transparencia en los procesos de compilación. Neuron Kernel Library ofrece núcleos optimizados y listos para la fase de producción con código fuente completo, documentación y puntos de referencia.
Neuron Explorer proporciona un conjunto unificado de herramientas que guía a los desarrolladores en su proceso de optimización del rendimiento y depuración. Al consolidar la creación de perfiles, la depuración, el despliegue de optimizaciones y la validación de las mejoras en un único entorno, ya no perderá más tiempo en herramientas fragmentadas gracias a Neuron Explorer. La creación de perfiles jerárquicos con enlaces de código para PyTorch, JAX y NKI permite realizar un seguimiento del proceso de ejecución desde el código fuente hasta las operaciones de hardware. Las recomendaciones con tecnología de IA analizan los perfiles para identificar cuellos de botella y ofrecer información útil para las estrategias de partición y la optimización del núcleo. La interfaz de usuario es de código abierto en GitHub.
Neuron proporciona capacidades integrales de supervisión y observabilidad que permiten a los desarrolladores de ML y a los equipos de MLOps mantener la excelencia operativa para los despliegues de producción. La integración nativa de Amazon CloudWatch permite la supervisión centralizada de toda la infraestructura de ML y ofrece soporte para aplicaciones en contenedores en Kubernetes y Amazon EKS. Las integraciones de plataformas de socios con herramientas como Datadog amplían la observabilidad con supervisiones, registros y alertas unificados. Neuron ofrece utilidades que incluyen neuron-top para poder realizar una supervisión en tiempo real, Neuron Monitor para la recopilación de métricas, neuron-ls para la lista de dispositivos y Neuron Sysfs para obtener información detallada del sistema.
Neuron simplifica el despliegue para los desarrolladores de ML y los equipos de MLOps con entornos preconfigurados y herramientas de infraestructura. Las AMI de aprendizaje profundo (DLAMI) y los contenedores de aprendizaje profundo (DLC) de Neuron ofrecen la pila de software de Neuron, los marcos populares y las bibliotecas esenciales. Para los despliegues de Kubernetes, el complemento del dispositivo Neuron administra la asignación de recursos, la extensión del programador Neuron proporciona una ubicación inteligente de las cargas de trabajo y el controlador de Asignación de recursos dinámica (DRA) evita la complejidad de la topología del hardware con una selección intuitiva de recursos basada en el tamaño. Los gráficos de Helm simplifican la orquestación de los despliegues en los contenedores.