Amazon SageMaker HyperPod – Features

Die Entwicklung generativer KI-Modelle für Tausende von KI-Accelerators skalieren und beschleunigen

Aufgabenverwaltung

Amazon SageMaker HyperPod bietet vollständige Transparenz und Kontrolle über die Zuweisung von Rechenressourcen für Aufgaben im Zusammenhang mit der Entwicklung von Modellen für generative KI, wie etwa Training und Inferenz. SageMaker HyperPod verwaltet automatisch Aufgabenwarteschlangen und stellt sicher, dass die wichtigsten Aufgaben priorisiert werden, während Rechenressourcen effizienter genutzt werden, um die Kosten für die Modellentwicklung zu senken. In wenigen Schritten können Administratoren Prioritäten für verschiedene Aufgaben definieren und Limits für die Anzahl der Rechenressourcen festlegen, die jedes Team oder Projekt nutzen kann. Anschließend erstellen Datenwissenschaftler und Entwickler Aufgaben (etwa einen Trainingslauf, ein bestimmtes Modell optimieren oder Vorhersagen zu einem trainierten Modell treffen), die SageMaker HyperPod automatisch ausführt, wobei die vom Administrator festgelegten Rechenressourcenbeschränkungen und Prioritäten eingehalten werden. Wenn eine Aufgabe mit hoher Priorität sofort erledigt werden muss, aber alle Rechenressourcen in Gebrauch sind, gibt SageMaker HyperPod automatisch Rechenressourcen von Aufgaben mit niedrigerer Priorität frei. Darüber hinaus nutzt SageMaker HyperPod automatisch ungenutzte Rechenressourcen, um wartende Aufgaben zu beschleunigen. SageMaker HyperPod bietet ein Dashboard, über das Administratoren Aufgaben überwachen und prüfen können, die ausgeführt werden oder auf Rechenressourcen warten.

Weitere Informationen

Flexible Trainingspläne

Um Ihre Trainingszeitpläne und Budgets einzuhalten, unterstützt Sie SageMaker HyperPod bei der Erstellung der kosteneffizientesten Trainingspläne, die Rechenressourcen aus mehreren Blöcken der Rechenkapazität nutzen. Sobald Sie die Trainingspläne genehmigt haben, stellt SageMaker HyperPod automatisch die Infrastruktur bereit und führt die Trainingsaufträge auf diesen Rechenressourcen aus, ohne dass ein manueller Eingriff erforderlich ist. Sie sparen sich wochenlange Arbeit bei der Verwaltung des Trainingsprozesses, um Aufträge an die Rechenverfügbarkeit anzupassen.

Weitere Informationen

 

Optimierte Rezepte zur Anpassung von Modellen

Die Rezepte von SageMaker HyperPod helfen Datenwissenschaftlern und Entwicklern aller Qualifikationsstufen, von der neuesten Technologie zu profitieren und gleichzeitig schnell mit dem Training und Optimieren öffentlich verfügbarer Modelle für generative KI zu beginnen, darunter Llama, Mixtral, Mistral und DeepSeek. Darüber hinaus können Sie Basismodelle von Amazon Nova, darunter Nova Micro, Nova Lite und Nova Pro, mithilfe einer Reihe von Techniken wie Supervised Fine-Tuning (SFT), Knowledge Distillation, Direct Preference Optimization (DPO), Proximal Policy Optimization und Continued Pre-Training – mit Unterstützung für sowohl parametereffizientes Modelltraining als auch für Neutrainieren des gesamten Modells über SFT, Distillation und DPO hinweg. Jedes Rezept enthält einen von AWS getesteten Trainings-Stack, wodurch wochenlange mühsame Tests verschiedener Modellkonfigurationen entfallen. Sie können mit einer einzeiligen Rezeptänderung zwischen GPU-basierten und AWS Trainium-basierten Instances wechseln, automatisierte Modell-Checkpoints für eine verbesserte Trainingsresilienz aktivieren und Workloads in der Produktion auf SageMaker HyperPod ausführen.

Hochleistungsfähiges verteiltes Training

SageMaker HyperPod beschleunigt das verteilte Training, indem es Ihre Modelle und Trainingsdatensätze automatisch auf AWS-Beschleuniger verteilt. Es hilft Ihnen, Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und die Clustertopologie zu optimieren und das Modell-Checkpointing zu rationalisieren, indem es die Häufigkeit des Speicherns von Checkpoints optimiert und so einen minimalen Overhead während des Trainings gewährleistet.

Fortschrittliche Tools für Beobachtbarkeit und zum Experimentieren

Die Beobachtbarkeit von SageMaker HyperPod bietet ein einheitliches Dashboard, das in Amazon Managed Grafana vorkonfiguriert ist, wobei die Überwachungsdaten automatisch in einem Amazon Managed Prometheus-Arbeitsbereich veröffentlicht werden. Sie können Leistungsmetriken, Ressourcenauslastung und den Zustand des Clusters in Echtzeit in einer einzigen Ansicht anzeigen, sodass Teams Engpässe schnell erkennen, kostspielige Verzögerungen vermeiden und Rechenressourcen optimieren können. HyperPod ist außerdem in Amazon CloudWatch Container Insights integriert und bietet so tiefere Einblicke in die Leistung, den Zustand und die Nutzung von Clustern. Mit Managed TensorBoard in SageMaker können Sie Entwicklungszeit sparen, indem Sie die Modellarchitektur visualisieren, um Konvergenzprobleme zu identifizieren und zu beheben. Mit Managed MLflow in SageMaker können Sie Experimente effizient und skaliert verwalten.

Foto

Workload-Planung und -Orchestrierung

Die Benutzeroberfläche von SageMaker HyperPod ist mithilfe von Slurm oder Amazon Elastic Kubernetes Service (Amazon EKS) in hohem Maße anpassbar. Sie können alle benötigten Frameworks und Tools auswählen und installieren. Alle Cluster werden mit dem von Ihnen gewählten Instance-Typ und der von Ihnen gewählten Anzahl bereitgestellt und bleiben für Ihre Verwendung bei verschiedenen Workloads erhalten. Mit der Amazon-EKS-Unterstützung in SageMaker HyperPod können Sie Cluster mit einem konsistenten Kubernetes-basierten Administratorerlebnis verwalten und betreiben. Führen Sie Workloads effizient aus und skalieren Sie sie – vom Training über die Optimierung bis hin zur Inferenz. Sie können auch Rechenkapazität gemeinsam nutzen und für verschiedene Arten von Workloads zwischen Slurm und Amazon EKS wechseln.

Automatische Zustandsprüfung und Reparatur von Clustern

Wenn während eines Workloads zur Modellentwicklung Instances fehlerhaft werden, erkennt SageMaker HyperPod Infrastrukturprobleme automatisch und behebt sie. Um fehlerhafte Hardware zu erkennen, führt SageMaker HyperPod regelmäßig eine Reihe von Zustandsprüfungen für die Integrität von Beschleunigern und Netzwerken durch.

Beschleunigen Sie die Bereitstellung von Open-Weights-Modellen mit SageMaker Jumpstart

SageMaker HyperPod optimiert automatisch die Bereitstellung von Open-Weights-Basismodellen aus SageMaker JumpStart und optimierten Modellen aus S3 und FSx. HyperPod stellt automatisch die erforderliche Infrastruktur bereit und konfiguriert Endpunkte, wodurch manuelle Bereitstellungen entfallen. Mit der HyperPod-Aufgaben-Governance wird der Endpunkt-Datenverkehr kontinuierlich überwacht und die Rechenressourcen dynamisch angepasst, während gleichzeitig umfassende Leistungsmetriken zur Echtzeitüberwachung und -optimierung im Dashboard für Beobachtbarkeit veröffentlicht werden.

Foto