Funzionalità di Amazon SageMaker HyperPod
Scala e velocizza lo sviluppo di modelli di IA generativa su migliaia di acceleratori di IA
Governance delle attività
Amazon SageMaker HyperPod offre visibilità e controllo completi sull'assegnazione delle risorse di calcolo nelle attività di sviluppo dei modelli di IA generativa, come formazione e inferenza. SageMaker HyperPod gestisce automaticamente le code di attività, garantendo che alle attività più critiche venga assegnata la priorità, utilizzando al contempo le risorse di calcolo in modo più efficiente per ridurre i costi di sviluppo dei modelli. In pochi semplici passaggi, gli amministratori possono definire le priorità per le diverse attività e impostare limiti per il numero di risorse di calcolo che ogni team o progetto può utilizzare. Quindi, i data scientist e gli sviluppatori creano attività (ad esempio, un'esecuzione di training, la messa a punto di un particolare modello o l'esecuzione di previsioni su un modello addestrato) che SageMaker HyperPod esegue automaticamente, rispettando i limiti e le priorità delle risorse di calcolo impostate dall'amministratore. Quando un'attività ad alta priorità deve essere completata immediatamente ma tutte le risorse di calcolo sono in uso, SageMaker HyperPod libera automaticamente le risorse di calcolo dalle attività con priorità inferiore. Inoltre, SageMaker HyperPod utilizza automaticamente le risorse di calcolo inattive per accelerare le attività in attesa. SageMaker HyperPod fornisce un pannello di controllo in cui gli amministratori possono monitorare e verificare le attività in esecuzione o in attesa di risorse di calcolo.
Piani di addestramento flessibili
Per rispettare le tempistiche e i budget di addestramento, SageMaker HyperPod ti aiuta a creare i piani di addestramento più convenienti che utilizzano risorse di calcolo provenienti da più blocchi di capacità di calcolo. Una volta approvati i piani di addestramento, SageMaker HyperPod esegue automaticamente il provisioning dell'infrastruttura ed esegue i carichi di lavoro di addestramento su queste risorse di calcolo senza richiedere alcun intervento manuale. Risparmia settimane di impegno nella gestione del processo di addestramento per allineare i lavori con disponibilità di calcolo.
Ricette ottimizzate per la personalizzazione dei modelli
Le ricette SageMaker HyperPod consentono ai data scientist e agli sviluppatori in possesso di tutte le competenze di beneficiare di prestazioni all'avanguardia, mentre iniziano rapidamente ad addestrare e perfezionare i modelli di IA generativa disponibili al pubblico, tra cui quelli di Llama, Mixtral, Mistral e DeepSeek. Inoltre, è possibile personalizzare i modelli di fondazione di Amazon Nova, tra cui Nova Micro, Nova Lite e Nova Pro con l'utilizzo di una suite di tecniche tra cui Supervised Fine-Tuning (SFT), Knowledge Distillation, Direct Preference Optimization (DPO), Proximal Policy Optimization e Continued Pre-Training, avendo a disposizione il supporto sia per l'efficienza dei parametri sia per opzioni di addestramento dei modelli completo durante l'esecuzione di SFT, Distillation e DPO. Ogni ricetta include uno stack di addestramento che è stato testato da AWS e consente di eliminare settimane di noioso lavoro testando diverse configurazioni di modelli. Puoi passare da istanze basate su GPU a istanze basate su AWS Trainium con una modifica di ricetta di una riga e abilitare il checkpoint automatico dei modelli per una migliore resilienza di addestramento, oltre ad eseguire carichi di lavoro in produzione su SageMaker HyperPod.
Librerie di addestramento distribuite ad alte prestazioni
SageMaker HyperPod accelera l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra gli acceleratori AWS. Aiuta a ottimizzare il tuo lavoro di addestramento per l'infrastruttura di rete AWS e la topologia dei cluster e a semplificare i checkpoint del modello ottimizzando la frequenza di salvataggio dei checkpoint, garantendo un sovraccarico minimo durante la formazione.
Strumenti avanzati di osservabilità e sperimentazione
L'osservabilità di SageMaker HyperPod fornisce una dashboard unificata preconfigurata in Grafana gestito da Amazon, dove i dati di monitoraggio pubblicati automaticamente in uno spazio di lavoro Amazon Managed Prometheus. Puoi vedere le metriche delle prestazioni in tempo reale, l'utilizzo delle risorse e lo stato dei cluster in un'unica visualizzando e ciò consente ai team di individuare rapidamente i colli di bottiglia, impedire ritardi costosi e ottimizzare le risorse di calcolo. HyperPod si integra anche con gli approfondimenti sui container Amazon CloudWatch, offrendo informazioni più approfondite sulle prestazioni, sull'integrità e sull'utilizzo del cluster. Managed TensorBoard in SageMaker ti aiuta a risparmiare tempo di sviluppo tramite la visualizzazione dell'architettura del modello per identificare e risolvere i problemi di convergenza. Managed MLflow in SageMaker aiuta a gestire in modo efficiente gli esperimenti su vasta scala.

Pianificazione e orchestrazione del carico di lavoro
L'interfaccia utente di SageMaker HyperPod è altamente personalizzabile tramite Slurm o Amazon Elastic Kubernetes Service (Amazon EKS). È possibile selezionare e installare tutti i framework o gli strumenti necessari. Tutti i cluster vengono assegnati con il tipo e il numero di istanze scelti e vengono mantenuti per essere utilizzati in tutti i carichi di lavoro. Con il supporto di Amazon EKS in SageMaker HyperPod, puoi gestire e gestire i cluster con un'esperienza amministratore coerente basata su Kubernetes. Esegui e scala in modo efficiente i carichi di lavoro, dall'addestramento all'ottimizzazione fino all'inferenza. Puoi anche condividere la capacità di calcolo e passare da Slurm ad Amazon EKS per diversi tipi di carichi di lavoro.
Controllo dell'integrità e riparazione automatici del cluster
Se qualche istanza diventa difettosa durante il carico di lavoro di sviluppo di un modello, SageMaker HyperPod rileva e risolve automaticamente i problemi di infrastruttura. Per rilevare hardware difettoso, SageMaker HyperPod esegue regolarmente una serie di controlli dell'integrità dell'acceleratore e della rete.
Accelera l'implementazione dei modelli a peso aperto con SageMaker Jumpstart
SageMaker HyperPod semplifica in modo automatico l'implementazione dei modelli di base a peso aperto di SageMaker JumpStart e dei modelli ottimizzati con fine-tuning di S3 e FSx. HyperPod esegue automaticamente il provisioning dell'infrastruttura richiesta e configura gli endpoint, eliminando il provisioning manuale. Con la governance delle attività di HyperPod, il traffico degli endpoint viene monitorato continuamente e regola in modo dinamico le risorse di calcolo, pubblicando al contempo metriche complete sulle prestazioni nella dashboard di osservabilità, per il monitoraggio e l'ottimizzazione in tempo reale.
