Entrenamiento de modelos de Amazon SageMaker

Entrene y refine modelos de IA generativa y ML.

¿En qué consiste el entrenamiento de modelos de SageMaker?

El entrenamiento de modelos de Amazon SageMaker reduce el tiempo y el costo que lleva entrenar y ajustar los modelos de machine learning (ML) a escala sin necesidad de administrar la infraestructura. Puede aprovechar la infraestructura de computación de ML de mayor rendimiento disponible en la actualidad, y Amazon SageMaker IA puede escalar o desescalar verticalmente la infraestructura de forma automática, desde una a miles de GPU. Para entrenar modelos de aprendizaje profundo más rápido, SageMaker AI lo ayuda a seleccionar y refinar conjuntos de datos en tiempo real. Las bibliotecas de entrenamiento distribuidas de SageMaker pueden dividir automáticamente modelos grandes y conjuntos de datos de entrenamiento en instancias de GPU de AWS, o bien puede utilizar bibliotecas de terceros, como DeepSpeed, Horovod o Megatron. Entrene modelos fundacionales (FM) durante semanas y meses sin interrupciones mediante la supervisión y reparación automáticas de los clústeres de entrenamiento.

Beneficios de un entrenamiento rentable

SageMaker AI ofrece una amplia variedad de GPU y CPU, así como aceleradores de AWS, como AWS Trainium y AWS Inferentia, para permitir el entrenamiento del modelo a gran escala. Puedes escalar automáticamente la infraestructura hacia arriba o hacia abajo, de una a miles de GPU.
SageMaker AI permite dividir automáticamente sus modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS, lo que ayuda a escalar las cargas de trabajo de entrenamiento de manera eficiente. Lo ayuda a optimizar su trabajo de entrenamiento para la infraestructura de red y la topología de clústeres de AWS. También puede usar recetas optimizadas para aprovechar el rendimiento de última generación y comenzar rápidamente con el entrenamiento y refinamiento de los modelos de IA generativa disponibles públicamente en minutos. También optimiza los puntos de control del modelo con las recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.
SageMaker AI puede refinar automáticamente el modelo, ya que ajusta miles de combinaciones de parámetros de algoritmos para obtener las predicciones más precisas. Usa herramientas de depuración y creación de perfiles para corregir rápidamente los problemas de rendimiento y optimizar el rendimiento del entrenamiento.
SageMaker AI permite realizar experimentos de ML eficientes para facilitar el seguimiento de las iteraciones de los modelos de ML. Mejore el rendimiento del entrenamiento de modelos mediante la visualización de la arquitectura del modelo para identificar y solucionar los problemas de convergencia.

Entrene modelos a escala

Trabajos de entrenamiento totalmente administrados

Los trabajos de entrenamiento de Amazon SageMaker brindan una experiencia de usuario completamente administrada para el entrenamiento de grandes modelos fundacionales distribuidos, lo que elimina la complejidad y las tareas operativas asociadas con la administración de la infraestructura que no marcan la diferencia. Los trabajos de entrenamiento de SageMaker activan automáticamente un clúster de entrenamiento distribuido y flexible, supervisan la infraestructura y se recuperan automáticamente de los errores para garantizar una experiencia fluida. Una vez finalizado el proceso, SageMaker reduce el clúster y se factura el tiempo neto de entrenamiento. Además, con los trabajos de entrenamiento de SageMaker, tiene la flexibilidad de elegir el tipo de instancia adecuado que mejor se adapte a cada carga de trabajo específica (por ejemplo, preentrenar un modelo de lenguaje de gran tamaño [LLM] en un clúster P5 o ajustar un LLM de código abierto en instancias p4d) para optimizar aún más el presupuesto de entrenamiento. Además, los trabajos de entrenamiento de SageMaker ofrecen una experiencia de usuario uniforme para equipos de machine learning con distintos niveles de experiencia técnica y tipos de carga de trabajo.

Más información

SageMaker HyperPod

Amazon SageMaker HyperPod es una infraestructura diseñada específicamente para administrar de manera eficiente los clústeres de computación a fin de escalar el desarrollo del modelo fundacional (FM). Permite técnicas avanzadas de entrenamiento de modelos, control de infraestructura, optimización del rendimiento y mejora de la observabilidad de los modelos. SageMaker HyperPod viene preconfigurado con bibliotecas de entrenamiento distribuido de SageMaker, lo que permite dividir automáticamente modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS. Esto optimiza el uso eficiente de la infraestructura de computación y red del clúster. Posibilita un entorno de entrenamiento más flexible ya que detecta, diagnostica y se recupera automáticamente de los errores de hardware, lo que permite entrenar de forma continua los FM durante meses sin interrupciones y así reducir el tiempo de entrenamiento hasta en un 40 %.

Más información

Entrenamiento distribuido de alto rendimiento

SageMaker AI agiliza la realización del entrenamiento distribuido mediante la división automática de modelos y conjuntos de datos de entrenamiento en los aceleradores de AWS. Ayuda a optimizar el trabajo de entrenamiento para la topología del clúster y la infraestructura de red de AWS. También optimiza los puntos de control del modelo con las recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.

Más información

Personalice modelos de IA generativa y de machine learning de forma eficiente

Amazon SageMaker AI permite personalizar tanto modelos fundacionales propios de Amazon como modelos de acceso público mediante conjuntos de datos personalizados, sin necesidad de entrenarlos desde cero. Científicos de datos y desarrolladores de todos los niveles pueden comenzar rápidamente a entrenar y refinar modelos de IA generativa, tanto públicos como propietarios, mediante recetas optimizadas. Cada receta ha sido probada por AWS, lo que elimina semanas de trabajo tedioso al evaluar distintas configuraciones de modelos para lograr un rendimiento de vanguardia. Con las recetas, es posible refinar modelos conocidos de acceso público, incluidas las familias Llama, Mixtral y Mistral. Además, puede personalizar los modelos fundacionales de Amazon Nova, incluidos Nova Micro, Nova Lite y Nova Pro, para casos de uso específicos de su empresa con Amazon SageMaker AI, mediante un conjunto de técnicas que abarcan todas las etapas del entrenamiento del modelo. Estas capacidades, disponibles como recetas de SageMaker listas para usar, permiten a los clientes adaptar los modelos Nova a lo largo de todo el ciclo de vida del modelo, incluidos el ajuste fino, la alineación y el entrenamiento previo supervisados.

Más información

Herramientas integradas para la interactividad y el monitoreo

Amazon SageMaker con MLflow

Utilice MLflow gracias con el entrenamiento de SageMaker para capturar parámetros de entrada, configuraciones y resultados, lo que le ayudará a identificar rápidamente los modelos con mejor rendimiento para su caso de uso. La interfaz de usuario de MLflow le permite analizar los intentos de entrenamiento del modelo y registrar fácilmente los modelos candidatos para la producción en un solo paso.

Depuración

Amazon SageMaker con TensorBoard

Amazon SageMaker con TensorBoard lo ayuda a ahorrar tiempo de desarrollo al visualizar la arquitectura del modelo para identificar y solucionar problemas de convergencia, como la pérdida de validación, la no convergencia o la desaparición de gradientes.

Administración de experimentos

Novedades

  • Date (Newest to Oldest)
No se encontraron resultados
1