Amazon SageMaker Modelltraining

ML- und generative KI-Modelle trainieren und optimieren

Was ist SageMaker Modelltraining?

Amazon-SageMaker-Modelltraining reduziert den Zeit- und Kostenaufwand für das Training und die Optimierung von Machine-Learning-Modellen (ML) in großem Maßstab, ohne dass die Infrastruktur verwaltet werden muss. Sie können die derzeit leistungsstärkste ML-Recheninfrastruktur nutzen, und Amazon SageMaker AI kann die Infrastruktur automatisch nach oben oder unten skalieren, von einem bis zu Tausenden von GPUs. Um Deep-Learning-Modelle schneller zu trainieren, hilft Ihnen SageMaker AI bei der Auswahl und Verfeinerung von Datensätzen in Echtzeit. Die verteilten Trainingsbibliotheken von SageMaker können große Modelle und Trainingsdatensätze automatisch auf mehrere AWS-GPU-Instances aufteilen. Alternativ können Sie Bibliotheken von Drittanbietern wie DeepSpeed, Horovod oder Megatron verwenden. Dank der automatischen Überwachung und Reparatur von Trainingsclustern lassen sich Basismodelle (FMs) über Wochen und Monate ununterbrochen trainieren.

Vorteile einer kostengünstigen Schulung

SageMaker AI bietet eine große Auswahl an GPUs und CPUs sowie AWS-Beschleunigern wie AWS Trainium und AWS Inferentia, um ein umfangreiches Modelltraining zu ermöglichen. Sie skalieren die Infrastruktur automatisch nach oben oder unten, von einer auf Tausende von GPUs.
Mit SageMaker AI können Sie Ihre Modelle und Trainingsdatensätze automatisch auf AWS-Cluster-Instances aufteilen, um Ihre Trainings-Workloads effizient zu skalieren. Es hilft Ihnen, Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und die Clustertopologie zu optimieren. Sie können auch optimierte Rezepte verwenden, um von modernster Leistung zu profitieren und in Minutenschnelle mit dem Training und Optimieren öffentlich verfügbarer Modelle für generative KI zu beginnen. Außerdem wird das Modell-Checkpointing über die Rezepte optimiert, indem die Häufigkeit des Speicherns von Checkpoints optimiert wird, wodurch ein minimaler Overhead während des Trainings gewährleistet wird.
SageMaker AI kann Ihr Modell automatisch optimieren, indem es Tausende von Algorithmusparameterkombinationen anpasst, um die genauesten Vorhersagen zu erhalten. Verwenden Sie Debugging- und Profiling-Tools, um Leistungsprobleme schnell zu korrigieren und die Trainingsleistung zu optimieren.
SageMaker AI ermöglicht effiziente ML-Experimente, mit denen Sie ML-Modelliterationen einfacher verfolgen können. Verbessern Sie die Leistung des Modelltrainings, indem Sie die Modellarchitektur visualisieren, um Konvergenzprobleme zu erkennen und zu beheben.

Modelle jeder Größenordnung trainieren

Vollständig verwaltete Trainingsaufträge

SageMaker-Trainingsaufträge bieten ein vollständig verwaltetes Benutzerlebnis für umfangreiche verteilte FM-Trainings, sodass die undifferenzierte Schwerstarbeit rund um die Infrastrukturverwaltung entfällt. SageMaker-Trainingsaufträge richten automatisch einen ausfallsicheren verteilten Trainingscluster ein, überwachen die Infrastruktur und beheben Fehler automatisch, um ein reibungsloses Trainingserlebnis zu gewährleisten. Sobald das Training abgeschlossen ist, dreht SageMaker den Cluster herunter und Ihnen wird die Netto-Trainingszeit in Rechnung gestellt. Darüber hinaus können Sie bei SageMaker-Schulungsaufträgen flexibel den Instance-Typ auswählen, der am besten zu einem bestimmten Workload passt (etwa ein großes Sprachmodell (LLM) auf einem P5-Cluster vorab trainieren oder ein Open-Source-LLM auf p4d-Instances optimieren), um Ihr Schulungsbudget weiter zu optimieren. Darüber hinaus bietet SageMaker ein konsistentes Benutzererlebnis für ML-Teams mit unterschiedlichem technischem Fachwissen und unterschiedlichen Workload-Typen.

Weitere Informationen

SageMaker HyperPod

Amazon SageMaker HyperPod ist eine speziell entwickelte Infrastruktur zur effizienten Verwaltung von Rechenclustern, um die Entwicklung von Basismodellen (FM) zu skalieren. Es ermöglicht fortgeschrittene Modelltrainingstechniken, Infrastrukturkontrolle, Leistungsoptimierung und verbesserte Modellbeobachtbarkeit. SageMaker HyperPod ist mit verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, sodass Sie Ihre Modelle und Trainingsdatensätze automatisch auf mehrere AWS-Cluster-Instances aufteilen können, um die Rechen- und Netzwerkinfrastruktur des Clusters effizient zu nutzen. Das Tool ermöglicht eine belastbarere Trainingsumgebung, indem es Hardwarefehler automatisch erkennt, diagnostiziert und behebt, sodass Sie FMs über Monate hinweg ohne Unterbrechung trainieren können. Die Trainingszeit wird dadurch um bis zu 40 % verkürzt.

Weitere Informationen

Leistungsstarkes verteiltes Training

SageMaker AI beschleunigt die Durchführung verteilter Schulungen, indem Ihre Modelle und Trainingsdatensätze automatisch auf AWS-Beschleuniger aufgeteilt werden. Es hilft Ihnen, Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und die Clustertopologie zu optimieren. Außerdem wird das Modell-Checkpointing über die Rezepte optimiert, indem die Häufigkeit des Speicherns von Checkpoints optimiert wird, wodurch ein minimaler Overhead während des Trainings gewährleistet wird.

Weitere Informationen

Generative KI- und ML-Modelle effizient anpassen

Amazon SageMaker AI ermöglicht die Anpassung sowohl von Amazon-eigenen als auch öffentlich zugänglichen Foundation-Modellen mithilfe benutzerdefinierter Datensätze, sodass sie nicht von Grund auf trainiert werden müssen. Datenwissenschaftler und Entwickler aller Fähigkeiten können schnell mit der Schulung und Feinabstimmung von öffentlichen und proprietären generativen KI-Modellen mithilfe optimierter Rezepte beginnen. Jedes Rezept wird von AWS getestet, sodass wochenlanges Testen verschiedener Modellkonfigurationen entfällt, um eine Leistung auf dem neuesten Stand der Technik zu erzielen. Mithilfe von Rezepten können Sie beliebte, öffentlich verfügbare Modellfamilien wie Llama, Mixtral und Mistral verfeinern. Darüber hinaus können Sie Basismodelle von Amazon Nova, darunter Nova Micro, Nova Lite und Nova Pro, in allen Phasen des Modelltrainings mithilfe einer Reihe von Techniken an Ihre geschäftsspezifischen Anwendungsfälle auf Amazon SageMaker AI anpassen. Diese Fähigkeiten sind als gebrauchsfertige SageMaker-Rezepte erhältlich und ermöglichen Kunden das Anpassen von Nova-Modellen über den gesamten Modelllebenszyklus hinweg, einschließlich Supervised Fine-Tuning, Alignment und Pre-Training.

Weitere Informationen

Integrierte Tools für Interaktivität und Überwachung

Amazon SageMaker mit MLflow

Verwenden Sie MLflow mit SageMaker Training, um Eingabeparameter, Konfigurationen und Ergebnisse zu erfassen. So können Sie schnell die leistungsfähigsten Modelle für Ihren Anwendungsfall identifizieren. Die MLflow-Benutzeroberfläche ermöglicht es Ihnen, Modelltrainingsversuche zu analysieren und mühelos Kandidatenmodelle für die Produktion in einem schnellen Schritt zu registrieren.

Debugging

Amazon SageMaker mit TensorBoard

Amazon SageMaker mit TensorBoard hilft Ihnen, Entwicklungszeit zu sparen, indem Sie die Modellarchitektur visualisieren, um Konvergenzprobleme zu identifizieren und zu beheben, wie z.B. nicht konvergierende Validierungsverluste oder verschwindende Gradienten.

Verwaltung von Experimenten

Neuerungen

  • Date (Newest to Oldest)
Keine Ergebnisse gefunden
1