Saltar al contenido principal

Clientes de Amazon SageMaker HyperPod

Las principales startups y organizaciones de IA de todos los tamaños están entrenando e implementando modelos básicos a escala en SageMaker HyperPod

WRITER

Con la infraestructura de AWS, WRITER transformó su enfoque para el entrenamiento de LLM. Utilizaron SageMaker HyperPod para permitir un entrenamiento distribuido de múltiples nodos sin interrupciones. Esto permitió al equipo de investigación de WRITER centrarse en el desarrollo de modelos y, al mismo tiempo, mejorar el rendimiento en todos los puntos de referencia de la industria.

Salesforce

Los equipos de investigación de IA de Salesforce lograron una implementación rápida y a gran escala de la infraestructura de entrenamiento, lo que convirtió los nodos aislados en una estructura de GPU de alto rendimiento en SageMaker HyperPod. Al eliminar los gastos generales de DevOps y ofrecer recetas avanzadas listas para usar, HyperPod acelera de manera drástica los ciclos de entrenamiento del modelo, lo que ayuda a Salesforce a innovar más rápido para sus clientes. El entrenamiento sin puntos de control en Amazon SageMaker HyperPod transformará nuestra infraestructura de entrenamiento de LLM. Esta tecnología permite la recuperación de fallos en cuestión de minutos sin perder el progreso del entrenamiento ni tener que recurrir a puntos de control, lo que permite a los equipos de investigación de IA de Salesforce acelerar nuestras cargas de trabajo y nuestra hoja de ruta. El entrenamiento elástico permitirá que nuestras cargas de trabajo se escalen de forma automática para absorber las GPU inactivas a medida que estén disponibles y generar recursos con fluidez, todo ello sin interrumpir los ciclos de desarrollo. Y lo que es más importante, nos ahorrará horas dedicadas a reconfigurar de forma manual los trabajos para que coincidan con la computación disponible, tiempo que podemos reinvertir en innovación.

Luma AI

El entrenamiento de modelos de IA visual de frontera requiere una potencia de computación enorme y una infraestructura perfecta. La IA de Luma se entrena con 1000 veces más datos que los LLM más grandes, lo que exige una solución avanzada y escalable. SageMaker HyperPod ofrece la fiabilidad, el rendimiento y la eficiencia necesarios para que las GPU, las redes y el almacenamiento funcionen al unísono. Con HyperPod, los desarrolladores de IA pueden entrenar modelos complejos con mayor rapidez, optimizar los recursos y llevar tecnología de IA de vanguardia al mercado con confianza.

Amazon Nova

El equipo de Amazon AGI entrenó los modelos fundacionales de Amazon Nova en SageMaker HyperPod con una infraestructura optimizada, almacenamiento de alta velocidad y herramientas integradas de supervisión y observabilidad. SageMaker HyperPod permite el desarrollo de modelos resilientes, eficientes y escalables en clústeres grandes y distribuidos.

Hugging Face

Hugging Face usó SageMaker HyperPod para crear nuevos modelos fundacionales abiertos como StarCoder, IDEFICS y Zephyr. Las capacidades de resiliencia y rendimiento de SageMaker HyperPod, diseñadas de forma específica, han permitido a nuestro equipo de ciencia abierta centrarse en innovar y publicar mejoras importantes en la forma en que se crean los modelos fundacionales, en lugar de en administrar la infraestructura.

Perplexity AI

Perplexity creó y refinó los modelos de lenguaje de gran tamaño (LLM) que usa su motor de respuestas conversacional para responder preguntas y añadir citas como referencia. Con SageMaker HyperPod, la empresa entrena modelos un 40 % más rápido y pone en marcha experimentos el doble de rápido.

Articul8 AI

Con HyperPod, Articul8 aumentó la productividad en un 35 % y escaló verticalmente las operaciones de IA generativa. Con la priorización automática de tareas y la asignación de recursos en SageMaker HyperPod, han observado una mejora espectacular en la utilización de la GPU, lo que reduce el tiempo de inactividad y acelera el proceso de desarrollo de modelos mediante la optimización de tareas que van desde el entrenamiento y refinamiento hasta la inferencia. Con la observabilidad de SageMaker HyperPod, implementan sistemas de recopilación y visualización de métricas con un solo clic, lo que ahorra a los equipos tener que realizar una configuración manual (un proceso que requiere varios días) y mejora los flujos de trabajo y la información sobre la observabilidad del clúster.

Coastal Carbon

Coastal Carbon está revolucionando la conservación del medio ambiente gracias a la inteligencia artificial y la nube. Con SageMaker HyperPod, la empresa procesa miles de petabytes de datos históricos de satélites para crear un gemelo digital y un modelo fundacional del mundo natural.

EvolutionaryScale

EvolutionaryScale es una startup pionera en materia de IA que permite a los científicos comprender, imaginar y crear proteínas. Con SageMaker HyperPod, usaron más de 2000 millones de secuencias de proteínas para entrenar sus modelos, llevando al límite la ingeniería de proteínas y la búsqueda de nuevos medicamentos.

Noetik

Noetik es una empresa de biotecnología nativa en la IA que aprovecha SageMaker HyperPod para descubrir y desarrollar terapias contra el cáncer.

Latent Labs

Latent Labs recurrió a SageMaker HyperPod para escalar con rapidez las tareas de desarrollo de modelos, como el entrenamiento, el ajuste o la inferencia (usar un modelo para hacer predicciones basadas en datos nuevos), en un grupo de cientos o miles de aceleradores de IA. La capacidad de generar y probar nuevas secuencias biológicas (como el ADN) de forma más precisa y sencilla mediante modelos de IA acelerará su fabricación e implementación en el mundo real.

TwelveLabs

TwelveLabs está transformando la forma en que las empresas interactúan y utilizan la inteligencia de video basada en IA. Utilizan SageMaker HyperPod para entrenar y escalar sus modelos de manera más eficiente. Con la resiliencia y la infraestructura de entrenamiento distribuida, pueden poner en marcha las GPU y entrenar modelos lo más rápido posible.

Arcee AI

Arcee AI desarrolla modelos de lenguaje de pequeño tamaño (SLM) adaptados al dominio para ayudar a las empresas a realizar tareas especializadas, como el análisis de documentos legales. Utilizan SageMaker HyperPod para distribuir de manera eficiente las cargas de trabajo de entrenamiento entre las GPU, lo que reduce el tiempo de entrenamiento del modelo en un 40 %.

Intercom

En Intercom, capacitamos constantemente a nuevos modelos para mejorar Fin, y estamos muy contentos de integrar la capacitación sin puntos de control en nuestros programas. Esta solución eliminará por completo la necesidad de recuperar los puntos de control de forma manual. Podremos ofrecer mejoras a Fin de manera más rápida y con menores costos de infraestructura, ya que está combinado con una capacitación elástica.

Missing alt text value

Bayer

Con SageMaker HyperPod, Bayer entrenó y utilizó nuevos FM en tan solo unos pocos meses. Su equipo científico ahora puede procesar grandes cantidades de datos de imágenes biomédicas, entrenar modelos sofisticados de machine learning (ML) e identificar candidatos a fármacos prometedores según firmas fenotípicas. A medida que Bayer continúa innovando, su trabajo con AWS ayuda a allanar el camino para una I+D farmacéutica más rápida y eficiente.  

Bayer logo with a blue and green circular design and the word 'BAYER' arranged vertically and horizontally in the center.

Sony Honda Mobility

Sony Honda Mobility utiliza SageMaker HyperPod para el entrenamiento de modelos dentro de su cartera de MLOps a fin de mejorar AFEELA Intelligent Drive. “Las características de observabilidad listas para usar de HyperPod nos brindan un conjunto completo de métricas en múltiples dimensiones (clúster, nodo, tarea, etc.). Esperamos obtener información más profunda y preconfigurada sobre el estado y el rendimiento, con agregación a nivel de tareas”.

Motoi Kataoka, ingeniero de MLOps en la división de Desarrollo de Servicios de Red de Sony Honda Mobility

Missing alt text value

Thomson Reuters

Thomson Reuters ha estado a la vanguardia del desarrollo de la IA durante más de 30 años y nos comprometemos a ofrecer soluciones significativas que ayuden a nuestros clientes a obtener resultados más rápido, con un mejor acceso a información fiable. Para acelerar nuestra innovación en IA generativa, además de asociarnos con proveedores de LLM, también estamos explorando el entrenamiento de modelos personalizados de manera más eficiente con nuestro contenido único y patentado y nuestra experiencia humana. Las bibliotecas de entrenamiento distribuido de SageMaker HyperPod nos ayudan a mejorar el rendimiento del entrenamiento de modelos a gran escala. Además, su característica de resiliencia ahorra tiempo a medida que supervisamos y administramos la infraestructura. El entrenamiento de nuestros modelos fundacionales en SageMaker HyperPod aumentará nuestra velocidad de comercialización y nos ayudará a ofrecer soluciones de calidad a nuestros clientes a buen ritmo.

Joel Hron, director de IA y laboratorios de Thomson Reuters, y John Duprey, ingeniero distinguido de Thomson Reuters Labs

Missing alt text value

Stability AI

Como empresa líder en IA generativa de código abierto, nuestro objetivo es maximizar la accesibilidad de la IA moderna. Estamos creando modelos fundacionales con decenas de miles de millones de parámetros, que requieren una infraestructura que pueda escalar un rendimiento de entrenamiento optimizado. Con la infraestructura administrada y las bibliotecas de optimización de SageMaker HyperPod, podemos reducir el tiempo y los costos de formación en más de un 50 %. Hace que nuestro entrenamiento del modelo sea más resistente y eficaz para crear modelos de última generación con mayor rapidez.

Emad Mostaque, fundador y CEO de Stability AI

Missing alt text value

Recursal AI

Se simplificó todo el proceso. Con SageMaker HyperPod, podemos aprovechar las características de resiliencia de los clústeres que identifican y recuperan automáticamente los trabajos de entrenamiento desde el último punto de control guardado en caso de que se produzca un fallo de hardware. Ejecutamos cargas de trabajo muy diversas, desde aplicaciones, inferencias y entrenamiento, con Kubernetes como hilo conductor. Para nosotros, Amazon EKS con SageMaker HyperPod simplemente funciona: los nodos entran en nuestro clúster.

Nathan Wilce, jefe de infraestructura y datos de Recursal

Missing alt text value

Hippocratic AI

Hippocratic AI, una empresa de inteligencia artificial que desarrolla el primer modelo de lenguaje de gran tamaño (LLM) centrado en la seguridad para la atención médica. Para entrenar sus modelos principales de LLM y de supervisor, Hippocratic AI requería recursos de computación potentes, que tenían una gran demanda y eran difíciles de obtener. Los planes de entrenamiento flexibles de Amazon SageMaker HyperPod les facilitaron el acceso a las instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2). Hippocratic AI también aprovecha los servicios de AWS, como Grafana, para realizar un seguimiento de las métricas importantes de utilización de la GPU. Con las instancias P5 de Amazon EC2, Hippocratic AI ha aumentado cuatro veces la velocidad de entrenamiento del modelo y escala su solución para adaptarse a cientos de casos de uso. Los ayudó a asegurar los recursos de computación necesarios y a entrenar modelos rápidamente.

Missing alt text value

NinjaTech

NinjaTech AI, una empresa de IA generativa que ofrece un SuperAgent integrado para una productividad ilimitada, utilizó los planes de entrenamiento flexible de Amazon SageMaker HyperPod para acelerar el refinamiento de varios modelos internos, incluido el modelo Llama 3.1 405B, a fin de reducir los costos de entrenamiento del modelo y automatizar el proceso. El objetivo de la empresa es brindarles una experiencia perfecta a los usuarios que desean acceder a varios agentes de IA que impulsan su tecnología SuperAgent. Para lograrlo, necesitaban un modelo que pudiera predecir automáticamente la intención del usuario y determinar qué agente de IA sería adecuado para ello. Este mecanismo requería realizar actualizaciones frecuentes del modelo incorporando los comentarios de los clientes y nuevas características de forma iterativa, lo que implicaba entre 10 y 100 millones de tokens en cada ronda de refinamiento de LoRa. Para una startup, adquirir y operar recursos de computación de alto rendimiento es un desafío debido a los problemas de ancho de banda y costo, en especial en los clústeres de varios nodos que implican redes y almacenamiento rápidos, además de una computación acelerada. Además, el proceso de entrenamiento lleva mucho tiempo e implica pasos como la descarga de modelos, el entrenamiento distribuido, el punto de control, la supervisión, la corrección automática, la fusión y la cuantización. Los planes de entrenamiento flexibles de HyperPod proporcionaron a la empresa un procesamiento fiable y asequible antes del entrenamiento, lo que se ajustó a sus requisitos de computación y cronogramas específicos y, al mismo tiempo, garantizó un entrenamiento del modelo eficiente.

Missing alt text value

OpenBabylon

Los desarrolladores y científicos de datos de OpenBabylon, una empresa de inteligencia artificial que personaliza modelos de lenguaje grandes para lenguajes subrepresentados, llevan unos meses utilizando los planes de entrenamiento flexible de SageMaker HyperPod a fin de optimizar su acceso a los recursos de la GPU para ejecutar experimentos a gran escala. Con las capacidades de entrenamiento distribuido de varios nodos de SageMaker HyperPod, realizaron 100 experimentos de entrenamiento del modelo a gran escala y lograron resultados vanguardistas en la traducción del inglés al ucraniano. Este avance se logró a tiempo y de forma rentable, lo que demuestra la capacidad de SageMaker HyperPod para entregar con éxito proyectos complejos a tiempo y dentro del presupuesto.

Missing alt text value

H.AI

“Con Amazon SageMaker HyperPod, creamos e implementamos los modelos fundacionales de nuestra plataforma de IA agéntica con el mismo procesamiento de alto rendimiento. El poder pasar del entrenamiento a la inferencia de forma tan fluida simplificó nuestro flujo de trabajo, redujo el tiempo de producción y garantizó un rendimiento uniforme en los entornos activos. Gracias a HyperPod pudimos pasar de experimentar a crear impacto en el mundo real con mayor velocidad y eficiencia”.

Laurent Sifre, cofundador y director de tecnología de H.AI

Missing alt text value

Datology AI

“Nos entusiasma usar la solución de observabilidad con un solo clic de Amazon SageMaker HyperPod. Nuestro personal sénior necesitaba información sobre cómo estamos utilizando los costosos recursos de GPU. Los paneles de Grafana prediseñados nos brindarán exactamente lo que necesitamos, pues podremos ver inmediatamente las métricas críticas, desde la utilización de la GPU para tareas específicas hasta el rendimiento del sistema de archivos (FSx para Lustre); todo esto sin tener que mantener ninguna infraestructura de monitoreo. Como alguien que aprecia el poder del lenguaje de consulta de Prometheus, me gusta el hecho de poder escribir mis propias consultas y analizar métricas personalizadas sin preocuparme por los problemas de infraestructura”.

Josh Wills, miembro del personal técnico de Datology AI

Missing alt text value

Splash Music

“Con SageMaker HyperPod y Trainium, nuestros investigadores experimentan con la misma rapidez con la que crea nuestra comunidad. No solo nos mantenemos al día con las tendencias musicales, sino que las estamos marcando”.

Randeep Bhatia, director de Tecnología de Splash Music

Missing alt text value

Socios de Amazon SageMaker HyperPod

Impulse la innovación y genere un mayor valor empresarial con la ayuda de los socios de AWS que cuentan con un amplio conocimiento técnico y un éxito comprobado entre los clientes

Accenture

“Ampliamos nuestra asociación con AWS como socio de lanzamiento para la gobernanza de tareas de Amazon SageMaker HyperPod. Nuestra colaboración con AWS nos permitirá guiar a los clientes hacia los últimos avances tecnológicos y, al mismo tiempo, reducir los costos de las aplicaciones de IA generativa. Si combinamos las capacidades de gobernanza centralizada de SageMaker HyperPod y nuestra experiencia en proyectos de IA generativa, podemos ayudar a las empresas a aprovechar el valor de la IA generativa aún más rápido y así, mejorar la experiencia del cliente y aumentar el retorno de la inversión”.

Jennifer Jackson, Global Lead de Accenture AWS Business Group y Senior Managing Director

Missing alt text value

Slalom

“Estamos encantados de colaborar con AWS como socio de lanzamiento para la gobernanza de tareas de Amazon SageMaker HyperPod. Gracias al trabajo en conjunto con AWS, ahora podemos ayudar a nuestros clientes a adoptar rápidamente los últimos avances tecnológicos y reducir los costos de sus aplicaciones de IA generativa. Si combinamos las capacidades de gobernanza centralizada de SageMaker HyperPod con la amplia experiencia de Slalom en IA y en la nube, podemos ofrecer experiencias de cliente excepcionales junto con un mayor retorno de la inversión”.

Jeff Kempiners, Managing Director del Centro de Excelencia (CoE) de Amazon de Slalom

Missing alt text value

Rackspace Technology

“Nos complace colaborar con AWS como socio de lanzamiento para la gobernanza de tareas de SageMaker HyperPod. Juntos, podemos ayudar a nuestros clientes a reducir los costos de las aplicaciones de IA generativa y, al mismo tiempo, estar al tanto de los últimos avances tecnológicos. Si combinamos las capacidades de gobernanza centralizada de SageMaker HyperPod con la profunda experiencia en IA y nube de Rackspace, podemos transformar las experiencias de los clientes y mejorar su retorno de la inversión simultáneamente”.

Srini Koushik, President, AI, Technology and Sustainability de Rackspace Technology

Missing alt text value

¿Ha encontrado lo que buscaba hoy?

Ayúdenos a mejorar la calidad del contenido de nuestras páginas compartiendo sus comentarios