Amazon SageMaker HyperPod

Clienti di Amazon SageMaker HyperPod

Le migliori startup e organizzazioni di IA di tutte le dimensioni stanno addestrando e implementando modelli di fondazione su larga scala su SageMaker HyperPod

WRITER

Con l'infrastruttura AWS, WRITER ha trasformato il suo approccio all'addestramento degli LLM. Ha utilizzato SageMaker HyperPod per supportare un addestramento distribuito multi-nodo senza interruzioni. Ha consentito al team di ricerca di WRITER di concentrarsi sullo sviluppo del modello migliorando al contempo le prestazioni nei benchmark di settore.

Leggi il caso di studio

Salesforce

I team di ricerca sull'intelligenza artificiale di Salesforce hanno raggiunto un'implementazione rapida e su larga scala dell'infrastruttura di addestramento, trasformando nodi isolati in una struttura GPU ad alte prestazioni su SageMaker HyperPod. Eliminando il sovraccarico di DevOps e offrendo ricette di stack di formazione avanzate pronte all'uso, HyperPod accelera notevolmente i cicli di addestramento dei modelli, aiutando Salesforce a innovare più velocemente per i propri clienti. L'addestramento senza checkpoint in Amazon SageMaker HyperPod trasformerà la nostra infrastruttura di addestramento degli LLM. Questa tecnologia consente il ripristino dei guasti in pochi minuti senza perdere i progressi dell'addestramento o senza dover ricorrere ai checkpoint, consentendo ai team di ricerca sull'intelligenza artificiale di Salesforce di accelerare i nostri carichi di lavoro e la nostra roadmap. L'addestramento elastico consentirà ai nostri carichi di lavoro di scalare automaticamente per assorbire le GPU inattive non appena saranno disponibili e produrre risorse senza interruzioni, il tutto senza interrompere i cicli di sviluppo. Soprattutto, ci farà risparmiare ore trascorse a riconfigurare manualmente i processi per farli corrispondere al calcolo disponibile, tempo che possiamo reinvestire nell'innovazione.

Luma AI

L'addestramento di modelli visivi di intelligenza artificiale di frontiera richiede un'enorme potenza di calcolo e un'infrastruttura senza interruzioni. Luma AI si addestra su un numero di dati 1.000 volte maggiore rispetto ai più grandi LLM, richiedendo una soluzione avanzata e scalabile. SageMaker HyperPod offre l'affidabilità, le prestazioni e l'efficienza necessarie per mantenere GPU, rete e archiviazione funzionanti in perfetta sintonia. Con HyperPod, gli sviluppatori di intelligenza artificiale possono addestrare modelli complessi più velocemente, ottimizzare le risorse e portare l'intelligenza artificiale all'avanguardia sul mercato con sicurezza.

Amazon Nova

Il team di Amazon AGI ha addestrato i modelli di fondazione di Amazon Nova su SageMaker HyperPod con infrastruttura ottimizzata, archiviazione ad alta velocità e strumenti di monitoraggio e osservabilità integrati. SageMaker HyperPod consente lo sviluppo di modelli resilienti, efficienti e scalabili su cluster distribuiti di grandi dimensioni.

Hugging Face

Hugging Face ha utilizzato SageMaker HyperPod per creare nuovi modelli di base aperti come StarCoder, IDEFICS e Zephyr. Le funzionalità di resilienza e le prestazioni appositamente sviluppate di SageMaker HyperPod hanno consentito al nostro team di open science di concentrarsi sull'innovazione e sulla pubblicazione di importanti miglioramenti alle modalità di creazione dei modelli di base, anziché sulla gestione dell'infrastruttura.

Perplexity AI

Perplexity ha creato ed eseguito il fine-tuning degli LLM che alimentano il suo motore di risposta conversazionale, che risponde alle domande insieme ai riferimenti forniti sotto forma di citazioni. Con SageMaker HyperPod, l'azienda esegue l'addestramento dei modelli il 40% più velocemente e la velocità degli esperimenti raddoppia.

Leggi il caso di studio

Articul8 AI

Con HyperPod, Articul8 ha aumentato verticalmente la produttività del 35% e ha ampliato le operazioni GenAI. Con la definizione automatica delle priorità delle attività e l’assegnazione delle risorse in SageMaker HyperPod, l’azienda ha notato un notevole miglioramento nell'utilizzo della GPU, riducendo così i tempi di inattività e accelerando il processo di sviluppo del modello ottimizzando attività che vanno da addestramento e fine-tuning fino all'inferenza. Con l'osservabilità di SageMaker HyperPod, implementa sistemi di raccolta e visualizzazione dei parametri con un solo clic, risparmiando ai team giorni di configurazione altrimenti manuale e migliorando i flussi di lavoro e gli approfondimenti sull'osservabilità dei cluster.

Leggi il caso di studio

Coastal Carbon

Coastal Carbon sta rivoluzionando la conservazione ambientale con l'intelligenza artificiale e il cloud. Con SageMaker HyperPod, elabora migliaia di petabyte di dati satellitari storici per creare un gemello digitale e un modello di base del mondo naturale.

EvolutionaryScale

EvolutionaryScale è una startup di IA pionieristica che consente agli scienziati di comprendere, immaginare e creare proteine. Con SageMaker HyperPod, si sono formati su oltre 2 miliardi di sequenze proteiche, superando i limiti dell'ingegneria delle proteine e della scoperta di farmaci.

Noetik

Noetik è un'azienda biotecnologica nativa dell'IA che usa SageMaker HyperPod per scoprire e sviluppare terapie contro il cancro.

Leggi il caso di studio

Latent Labs

Latent Labs si è rivolto a SageMaker HyperPod per scalare rapidamente le attività di sviluppo dei modelli come l'addestramento, il fine-tuning o l'inferenza (utilizzando un modello per fare previsioni basate su nuovi dati), su un cluster di centinaia o migliaia di acceleratori di intelligenza artificiale. La capacità di generare e testare in modo più preciso e semplice nuove sequenze biologiche (come il DNA) tramite modelli di intelligenza artificiale ne accelererà la produzione e l'implementazione nel mondo reale.

Leggi il blog

TwelveLabs

TwelveLabs sta trasformando il modo in cui le aziende interagiscono e utilizzano l'intelligenza video basata sull'intelligenza artificiale. Usa SageMaker HyperPod per addestrare e scalare i suoi modelli in modo più efficiente. Grazie alla resilienza e all'infrastruttura di addestramento distribuita, è in grado di avviare rapidamente le GPU e addestrare i modelli il più rapidamente possibile.

Leggi il blog

Arcee AI

Arcee AI sviluppa modelli di linguaggio di piccole dimensioni (SLM) adattati al dominio per aiutare le aziende a svolgere attività specializzate, come l'analisi di documenti legali. Usa SageMaker HyperPod per distribuire in modo efficiente i carichi di lavoro di addestramento tra le GPU, riducendo i tempi di addestramento dei modelli del 40%.

Intercom

Noi di Intercom addestriamo costantemente nuovi modelli per migliorare Fin, e siamo molto entusiasti di integrare l'addestramento senza checkpoint nelle nostre pipeline. Questo eliminerà completamente la necessità di ripristinare manualmente i checkpoint. In combinazione con l’addestramento elastico, ci consentirà di apportare miglioramenti a Fin più rapidamente e con costi di infrastruttura inferiori.

Bayer

Con SageMaker HyperPod, Bayer ha addestrato e utilizzato nuovi FM in pochi mesi. Il suo team scientifico può ora elaborare grandi quantità di dati di imaging biomedico, addestrare sofisticati modelli di machine learning (ML) e identificare farmaci candidati promettenti sulla base delle firme fenotipiche. Mentre Bayer continua a innovare, la collaborazione con AWS aiuta a spianare la strada a una ricerca e sviluppo farmaceutico più rapida ed efficiente.

Leggi il blog

Sony Honda Mobility

Sony Honda Mobility utilizza SageMaker HyperPod per l'addestramento dei modelli nell'ambito della propria pipeline MLOps per migliorare AFEELA Intelligent Drive. "Le funzionalità di osservabilità pronte all'uso di HyperPod ci forniscono un set completo di metriche su più dimensioni (cluster, nodo, attività, ecc.), non vediamo l'ora di ottenere informazioni più approfondite e preconfigurate sullo stato e sulle prestazioni, con aggregazione a livello di attività".

Motoi Kataoka, ingegnere MLOps nella divisione Network Service Development di Sony Honda Mobility

Thomson Reuters

Noi di Thomson Reuters siamo in prima linea nello sviluppo dell'IA da oltre 30 anni e ci impegniamo a fornire soluzioni significative che aiutino i nostri clienti a ottenere risultati più velocemente, con un migliore accesso a informazioni affidabili. Per accelerare la nostra innovazione nell'IA generativa, oltre a collaborare con i fornitori di LLM, stiamo anche esplorando la formazione di modelli personalizzati in modo più efficiente con i nostri contenuti unici e proprietari e la nostra esperienza umana. Le librerie di addestramento distribuite di SageMaker HyperPod ci aiutano a migliorare le prestazioni di addestramento dei modelli su larga scala. Inoltre, la sua funzionalità di resilienza consente di risparmiare tempo mentre monitoriamo e gestiamo l'infrastruttura. L'addestramento dei nostri modelli di base su SageMaker HyperPod aumenterà la nostra velocità di commercializzazione e ci aiuterà a fornire soluzioni di qualità per i nostri clienti in tempi rapidi.

Joel Hron, Head of AI and Labs presso Thomson Reuters e John Duprey, Distinguished Engineer presso Thomson Reuters Labs

Leggi il blog

Stability AI

Essendo la principale azienda di IA generativa open source, il nostro obiettivo è massimizzare l'accessibilità dell'IA moderna. Stiamo costruendo modelli di base con decine di miliardi di parametri, che richiedono un'infrastruttura in grado di dimensionare prestazioni di addestramento ottimizzate. Con l'infrastruttura gestita e le librerie di ottimizzazione di SageMaker HyperPod, abbiamo la possibilità di ridurre i tempi e i costi di addestramento di oltre il 50%. Ciò rende il nostro addestramento dei modelli più resiliente ed efficiente per creare modelli all'avanguardia più velocemente.

Emad Mostaque, fondatore e CEO, Stability AI

Leggi il blog

Recursal AI

L'intero processo è stato ottimizzato. Utilizzando SageMaker HyperPod, possiamo sfruttare le funzionalità di resilienza del cluster che identificano e recuperano automaticamente i job di addestramento dall'ultimo checkpoint salvato in caso di guasto hardware. Eseguiamo carichi di lavoro molto diversi, dalle applicazioni, all'inferenza e all'addestramento, con Kubernetes come filo conduttore. Per noi, Amazon EKS con SageMaker HyperPod è semplicemente un'ottima soluzione: i nodi vengono facilmente inseriti nel nostro cluster.

Nathan Wilce, responsabile infrastruttura e dati, Recursal

Hippocratic AI

Hippocratic AI, una società di intelligenza artificiale che sviluppa il primo modello linguistico di grandi dimensioni (LLM) incentrato sulla sicurezza per l'assistenza sanitaria. Per addestrare il suo LLM primario e i modelli di supervisione, Hippocratic AI richiedeva potenti risorse di calcolo, che erano molto richieste e difficili da ottenere. I piani di addestramento flessibili Amazon SageMaker HyperPod hanno facilitato l'accesso alle istanze P5 di Amazon Elastic Compute Cloud (Amazon EC2). Hippocratic AI sta inoltre usufruendo di servizi AWS come Grafana per monitorare importanti parametri di utilizzo della GPU. Attraverso l’uso delle istanze Amazon EC2 P5, Hippocratic AI ha aumentato di quattro volte la velocità di addestramento dei modelli e adatta la propria soluzione per soddisfare centinaia di casi d'uso. Ha consentito loro di proteggere le risorse di calcolo necessarie e di addestrare rapidamente i modelli.

NinjaTech AI

NinjaTech AI, una società di IA generativa che fornisce un SuperAgent all-in-one per una produttività illimitata, ha utilizzato i piani di addestramento flessibili di Amazon SageMaker HyperPod per accelerare il fine-tuning di vari modelli interni, incluso il modello Llama 3.1 405B per ridurre i costi di addestramento dei modelli e automatizzare il processo. L'azienda punta a fornire un'esperienza ottimizzata ai propri utenti che desiderano accedere a vari agenti IA che alimentano la loro tecnologia SuperAgent. Per raggiungere questo obiettivo, serviva un modello in grado di prevedere automaticamente l’intenzione dell’utente e determinare quale agente IA sarebbe stato adatto. Questo meccanismo ha richiesto aggiornamenti frequenti al modello incorporando il feedback dei clienti e le nuove funzionalità in modo iterativo, coinvolgendo 10-100 milioni di token ad ogni turno di fine-tuning di LoRA. Per una startup, l'acquisizione e la gestione di risorse di calcolo ad alte prestazioni è impegnativa a causa dei costi elevati e dei problemi di larghezza di banda, in particolare nei cluster multinodo che implicano una rete veloce e uno storage veloce oltre all'elaborazione accelerata. Inoltre, il processo di addestramento richiede molto tempo e prevede passaggi come il download del modello, l’addestramento distribuito, il checkpoint, il monitoraggio, la riparazione automatica, la fusione e la quantizzazione. I piani di addestramento flessibili di HyperPod hanno fornito all'azienda un'elaborazione affidabile e conveniente prima dell'esecuzione dell’addestramento, soddisfacendo i requisiti specifici di elaborazione e sequenza temporale, garantendo al tempo stesso un addestramento dei modelli efficiente.

OpenBabylon

Gli sviluppatori e i data scientist di OpenBabylon, una società di intelligenza artificiale che personalizza LLM per le lingue sottorappresentate, utilizzano da alcuni mesi i piani di addestramento flessibili di SageMaker HyperPod per semplificare l'accesso alle risorse GPU ed eseguire esperimenti su larga scala. Utilizzando le capacità di addestramento distribuite di SageMaker HyperPod multinodo, hanno condotto 100 esperimenti di addestramento dei modelli su larga scala, ottenendo risultati all’avanguardia nella traduzione dall’inglese all’ucraino. Questa svolta è stata raggiunta efficacemente nei tempi ed entro i costi previsti, dimostrando la capacità di SageMaker HyperPod di poter completare progetti complessi rispettando tempi e budget.

H.AI

"Con Amazon SageMaker HyperPod, abbiamo creato e implementato i modelli di base dietro nella piattaforma di IA agentica, utilizzando lo stesso calcolo ad alte prestazioni. Questa transizione ottimizzata dalla formazione all'inferenza ha semplificato il nostro flusso di lavoro, ridotto i tempi di produzione e garantito prestazioni costanti in ambienti reali. HyperPod ci ha aiutato a passare dalla sperimentazione all'impatto sul mondo reale con maggiore velocità ed efficienza".

Laurent Sifre, co-fondatore e CTO, H.AI

Datology AI

"Siamo entusiasti di usare la soluzione di osservabilità con un clic di Amazon SageMaker HyperPod. I membri senior del nostro staff avevano bisogno di informazioni sul modo in cui utilizziamo le costose risorse GPU. Le dashboard Grafana predefinite ci forniranno esattamente ciò di cui avevamo bisogno, ossia visibilità immediata delle metriche importanti, dall'utilizzo della GPU specifica delle attività alle prestazioni del file system (FSx for Lustre), senza dover effettuare la manutenzione di alcuna infrastruttura di monitoraggio. Dato che apprezzo la potenza del Prometheus Query Language, mi piace poter scrivere le query e analizzare metriche personalizzate senza dovermi preoccupare dei problemi a livello di infrastruttura".

Josh Wills, membro dello staff tecnico, Datology AI

Splash Music

"Con SageMaker HyperPod e Trainium, i nostri ricercatori sperimentano alla stessa velocità con cui la nostra community crea. Non stiamo solo tenendo il passo con le tendenze musicali, le stiamo definendo".

Randeep Bhatia, Chief Technology Officer, Splash Music

Leggi il blog

Partner di Amazon SageMaker HyperPod

Promuovi l'innovazione e sblocca un maggiore valore aziendale con i partner AWS, che dispongono di una profonda conoscenza tecnica e un successo comprovato con i clienti

Accenture

"Stiamo estendendo la nostra partnership con AWS come partner di lancio per la governance delle attività di Amazon SageMaker HyperPod. La nostra collaborazione con AWS ci consentirà di guidare i clienti verso le ultime scoperte tecnologiche, contribuendo al contempo a ridurre i costi delle applicazioni di IA generativa. Riunendo le funzionalità di governance centralizzate di SageMaker HyperPod e la nostra esperienza nei progetti di IA generativa, possiamo aiutare le aziende a realizzare il valore dell'IA generativa ancora più velocemente, migliorando l'esperienza del cliente e aumentando il ritorno sull'investimento".

Jennifer Jackson, Global Lead per Accenture AWS Business Group e Senior Managing Director

Slalom

"Siamo entusiasti di collaborare con AWS come partner di lancio per la governance delle attività di Amazon SageMaker HyperPod. Lavorando con AWS, possiamo ora aiutare i nostri clienti ad adottare rapidamente i più recenti progressi tecnologici e a ridurre i costi delle loro applicazioni di IA generativa. Riunendo le funzionalità di governance centralizzate in SageMaker HyperPod, con la vasta esperienza di intelligenza artificiale e cloud di Slalom, possiamo offrire esperienze eccezionali ai clienti insieme a un maggiore ritorno sull'investimento".

Jeff Kempiners, Managing Director del Centro di eccellenza (CoE) Amazon di Slalom

Rackspace Technology

"Siamo entusiasti di collaborare con AWS come partner di lancio per la governance delle attività di SageMaker HyperPod. Insieme, possiamo aiutare i nostri clienti a ridurre i costi delle applicazioni di IA generativa, rimanendo al passo con i più recenti progressi tecnologici. Combinando le funzionalità di governance centralizzata di SageMaker HyperPod con la profonda esperienza di intelligenza artificiale e cloud di Rackspace, possiamo trasformare le esperienze dei clienti e migliorare contemporaneamente il loro ritorno sull'investimento".

Srini Koushik, Presidente, AI, Technology and Sustainability, Rackspace Technology

Hai trovato quello che cercavi?

Facci sapere la tua opinione in modo da migliorare la qualità dei contenuti delle nostre pagine

Clienti di Amazon SageMaker HyperPod

WRITER

Salesforce

Luma AI

Amazon Nova

Hugging Face

Perplexity AI

Articul8 AI

Coastal Carbon

EvolutionaryScale

Noetik

Latent Labs

TwelveLabs

Arcee AI

Intercom

Bayer

Sony Honda Mobility

Thomson Reuters

Stability AI

Recursal AI

Hippocratic AI

NinjaTech AI

OpenBabylon

H.AI

Datology AI

Splash Music

Partner di Amazon SageMaker HyperPod

Accenture

Slalom

Rackspace Technology

Hai trovato quello che cercavi?

Scopri

Risorse

Sviluppatori

Assistenza