Überspringen zum Hauptinhalt

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod – Kunden

Führende KI-Startups und Organisationen aller Größen trainieren und stellen Basismodelle in großem Maßstab in SageMaker HyperPod bereit

WRITER

Mit der AWS-Infrastruktur hat WRITER seinen Ansatz für das Training von LLMs grundlegend verändert. Sie haben SageMaker HyperPod eingesetzt, um ein nahtloses verteiltes Training über mehrere Knoten hinweg zu ermöglichen. Dadurch konnte sich das Forschungsteam von WRITER auf die Modellentwicklung konzentrieren und gleichzeitig die Leistung über alle Branchen-Benchmarks hinweg verbessern.

Salesforce

Die KI-Forschungsteams von Salesforce haben eine schnelle und großflächige Bereitstellung der Trainingsinfrastruktur erreicht – indem sie isolierte Knoten in ein leistungsstarkes GPU-Netzwerk auf SageMaker HyperPod verwandelt haben. Durch die Eliminierung des DevOps-Aufwands und die Bereitstellung sofort einsatzbereiter, fortschrittlicher Trainings-Stack-Rezepte beschleunigt HyperPod die Modelltrainingszyklen erheblich und unterstützt Salesforce dabei, Innovationen für seine Kunden schneller voranzutreiben. Das Training ohne Kontrollpunkte in Amazon SageMaker HyperPod wird unsere LLM-Schulungsinfrastruktur verändern. Diese Technologie ermöglicht die Fehlerbehebung innerhalb von Minuten, ohne dass der Trainingsfortschritt verloren geht oder auf Kontrollpunkte zurückgegriffen werden muss. Dadurch können die KI-Forschungsteams von Salesforce ihre Workloads und ihre Roadmap beschleunigen. Durch elastisches Training können unsere Workloads automatisch skaliert werden, um freie GPUs zu nutzen, sobald diese verfügbar werden, und Ressourcen nahtlos freizugeben, ohne die Entwicklungszyklen zu unterbrechen. Am wichtigsten ist jedoch, dass wir dadurch Stunden sparen, die wir bisher mit der manuellen Neukonfiguration von Aufträgen verbracht haben, um sie an die verfügbaren Rechenkapazitäten anzupassen. Diese Zeit können wir nun in Innovationen investieren.

Luma AI

Das Training modernster visueller KI-Modelle erfordert umfangreiche Rechenleistung und eine nahtlose Infrastruktur. Luma AI trainiert mit 1.000 Mal mehr Daten als die größten LLMs und erfordert daher eine fortschrittliche, skalierbare Lösung. SageMaker HyperPod bietet die Zuverlässigkeit, Leistung und Effizienz, die erforderlich sind, um GPUs, Netzwerk und Speicher perfekt aufeinander abzustimmen. Mit HyperPod können KI-Entwickler komplexe Modelle schneller trainieren, Ressourcen optimieren und innovative KI-Lösungen mit Zuversicht auf den Markt bringen.

Amazon Nova

Das Team von Amazon AGI trainierte Amazon-Nova-Basismodelle in SageMaker HyperPod mit optimierter Infrastruktur, Hochgeschwindigkeitsspeicher und integrierten Überwachungs- und Beobachtbarkeits-Tools. SageMaker HyperPod ermöglicht eine ausfallsichere, effiziente und skalierbare Modellentwicklung über große, verteilte Cluster hinweg.

Hugging Face

Hugging Face hat SageMaker HyperPod verwendet, um neue offene Basismodelle wie StarCoder, IDEFICS und Zephyr zu entwickeln. Die speziell entwickelten Resilienz- und Leistungsfunktionen von SageMaker HyperPod haben es unserem Open-Science-Team ermöglicht, sich auf Innovationen und die Veröffentlichung wichtiger Verbesserungen bei der Erstellung von Basismodellen zu konzentrieren, anstatt die Infrastruktur zu verwalten.

Perplexity AI

Perplexity hat die LLMs, die ihre Konversations-Antwort-Engine antreiben, entwickelt und optimiert. Diese Engine beantwortet Fragen zusammen mit Referenzen in Form von Zitaten. Mit SageMaker HyperPod führt das Unternehmen das Modelltraining 40 % schneller durch und können Experimente doppelt so schnell ausführen.

Articul8 AI

Mit HyperPod steigerte Articul8 seine Produktivität um 35 % und erweiterte seine GenAI-Aktivitäten. Durch die automatisierte Aufgabenpriorisierung und Ressourcenzuweisung in SageMaker HyperPod konnte die GPU-Auslastung erheblich verbessert werden, wodurch Leerlaufzeiten reduziert und der Modellentwicklungsprozess durch die Optimierung von Aufgaben, die vom Training über die Feinabstimmung bis hin zur Inferenz reichen, beschleunigt werden konnte. Mit der Beobachtbarkeit von SageMaker HyperPod können sie Metrikerfassungs- und Visualisierungssysteme mit einem einzigen Klick bereitstellen. Das erspart den Teams tagelange manuelle Einrichtungsarbeiten und verbessert die Workflows und Erkenntnisse zur Cluster-Beobachtbarkeit.

Coastal Carbon

Coastal Carbon revolutioniert den Umweltschutz durch künstliche Intelligenz und die Cloud. Mit SageMaker HyperPod verarbeiten sie Tausende von Petabyte historischer Satellitendaten in einer bestimmten Reihenfolge, um einen digitalen Zwilling und ein Basismodell der natürlichen Welt zu erstellen.

EvolutionaryScale

EvolutionaryScale ist ein wegweisendes Startup im Bereich der künstlichen Intelligenz, das Wissenschaftlern ermöglicht, Proteine zu verstehen, sich vorzustellen und zu erschaffen. Mit SageMaker HyperPod trainierten sie über 2 Milliarden Proteinsequenzen und erweiterten damit die Grenzen des Protein-Engineering und der Arzneimittelforschung.

Noetik

Noetik ist ein KI-natives Biotechnologieunternehmen, das SageMaker HyperPod für die Erforschung und Entwicklung von Krebstherapeutika einsetzt.

Latent Labs

Latent Labs entschied sich für SageMaker HyperPod, um Modellentwicklungsaufgaben wie Training, Feinabstimmung oder Inferenz (Verwendung eines Modells zur Erstellung von Prognosen anhand neuer Daten) schnell über einen Cluster von Hunderten oder Tausenden von KI-Beschleunigern zu skalieren. Die Fähigkeit, neue biologische Sequenzen (wie DNA) mithilfe von KI-Modellen präziser und einfacher zu generieren und zu testen, wird deren Herstellung und Einsatz in der Praxis beschleunigen.

TwelveLabs

TwelveLabs revolutioniert die Art und Weise, wie Unternehmen mit KI-gestützter Videoanalyse interagieren und diese nutzen. Das Unternehmen setzt SageMaker HyperPod ein, um seine Modelle effizienter zu trainieren und zu skalieren. Dank der Ausfallsicherheit und der verteilten Trainingsinfrastruktur können sie GPUs schnell hochfahren und Modelle so schnell wie möglich trainieren.

Arcee AI

Arcee AI entwickelt bereichsspezifische kleine Sprachmodelle (SLMs), um Unternehmen bei der Durchführung spezialisierter Aufgaben zu unterstützen, wie beispielsweise der Analyse von Rechtsdokumenten. Sie nutzen SageMaker HyperPod, um Trainings-Workloads effizient auf GPUs zu verteilen und so die Modelltrainingszeit um 40 % zu reduzieren.

Intercom

Bei Intercom trainieren wir ständig neue Modelle, um Fin zu verbessern, und wir freuen uns sehr, Training ohne Kontrollpunkte in unsere Pipelines zu integrieren. Dadurch entfällt die Notwendigkeit einer manuellen Wiederherstellung von Kontrollpunkten vollständig. In Kombination mit elastischem Training können wir Fin so schneller und mit niedrigeren Infrastrukturkosten verbessern.

Missing alt text value

Bayer

Mit SageMaker HyperPod hat Bayer innerhalb weniger Monate neue Basismodellen trainiert und eingesetzt. Das wissenschaftliche Team ist nun in der Lage, große Mengen biomedizinischer Bildgebungsdaten zu verarbeiten, komplexe Machine-Learning-Modelle (ML) zu trainieren und vielversprechende Wirkstoffkandidaten anhand phänotypischer Signaturen zu identifizieren. Während Bayer weiterhin innovativ tätig ist, trägt die Zusammenarbeit mit AWS dazu bei, den Weg für eine schnellere und effizientere pharmazeutische Forschung und Entwicklung zu ebnen.  

Bayer logo with a blue and green circular design and the word 'BAYER' arranged vertically and horizontally in the center.

Sony Honda Mobility

Sony Honda Mobility setzt SageMaker HyperPod für das Modelltraining innerhalb seiner MLOps-Pipeline ein, um AFEELA Intelligent Drive zu verbessern. „Die sofort einsatzbereiten Beobachtbarkeits-Featuers von HyperPod bieten uns einen umfassenden Satz von Metriken über mehrere Dimensionen hinweg (Cluster, Knoten, Aufgaben usw.). Wir freuen uns darauf, tiefere, vorkonfigurierte Einblicke in den Zustand und die Leistung mit Aggregation auf Aufgabenebene zu erhalten.“

Motoi Kataoka, MLOps Engineer im Network Service Development Division bei Sony Honda Mobility

Missing alt text value

Thomson Reuters

Thomson Reuters steht seit über 30 Jahren an der Spitze der KI-Entwicklung, und wir setzen uns dafür ein, aussagekräftige Lösungen anzubieten, die unseren Kunden helfen, schneller Ergebnisse zu erzielen und einen besseren Zugang zu vertrauenswürdigen Informationen zu erhalten. Um unsere Innovationen im Bereich der generativen KI zu beschleunigen, arbeiten wir nicht nur mit LLM-Anbietern zusammen, sondern untersuchen auch, wie benutzerdefinierte Modelle mithilfe unserer einzigartigen und firmeneigenen Inhalte und unseres menschlichen Fachwissens effizienter trainiert werden können. Die verteilten Trainingsbibliotheken von SageMaker HyperPod helfen uns, die Leistung beim Training großer Modelle zu verbessern. Das Resilienz-Feature spart Zeit bei der Überwachung und Verwaltung der Infrastruktur. Das Training unserer Basismodelle in SageMaker HyperPod wird unsere Markteinführung beschleunigen und uns helfen, unseren Kunden schnell hochwertige Lösungen anzubieten.

Joel Hron, Head of AI and Labs, Thomson Reuters and John Duprey, Distinguished Engineer, Thomson Reuters Labs

Missing alt text value

Stability AI

Als führendes Open-Source-Unternehmen für generative KI ist es unser Ziel, die Zugänglichkeit moderner KI zu maximieren. Wir erstellen Basismodelle mit zig Milliarden von Parametern, für die eine Infrastruktur erforderlich ist, die eine optimierte Trainingsleistung skalieren kann. Mit der verwalteten Infrastruktur und den Optimierungsbibliotheken von SageMaker HyperPod können wir die Trainingszeit und -kosten um über 50% reduzieren. Dadurch wird unser Modelltraining ausfallsicherer und leistungsfähiger, sodass hochmoderne Modelle schneller erstellt werden können.

Emad Mostaque, Founder und CEO, Stability AI

Missing alt text value

Recursal AI

Der gesamte Prozess wurde optimiert. Mit SageMaker HyperPod können wir die Vorteile der Cluster-Resilienz-Features nutzen, die Trainingsaufträge vom zuletzt gespeicherten Checkpoint identifizieren und im Falle eines Hardware-Fehlers automatisch wiederherstellen. Wir führen sehr unterschiedliche Workloads aus – von der Anwendung über die Inferenz bis hin zum Training – mit Kubernetes als dem roten Faden. Für uns funktioniert Amazon EKS mit SageMaker HyperPod einfach: Die Knoten fallen einfach in unseren Cluster.

Nathan Wilce, Infrastructure/data lead, Recursal

Missing alt text value

Hippocratic AI

Hippocratic AI, ein KI-Unternehmen, das das erste sicherheitsorientierte große Sprachmodell (LLM) für das Gesundheitswesen entwickelt. Um sein primäres LLM und die Supervisor-Modelle zu trainieren, benötigte Hippocratic AI leistungsstarke Rechenressourcen, die sehr gefragt und schwer zu bekommen waren. Die flexiblen Trainingspläne von Amazon SageMaker HyperPod vereinfacht es ihnen, auf Amazon Elastic Compute Cloud (Amazon EC2) P5 Instances zuzugreifen. HippocraticAI nutzt auch AWS-Services wie Grafana, um wichtige GPU-Nutzungsmetriken zu verfolgen. Durch die Nutzung von Amazon-EC2-P5-Instances hat Hippocratic AI die Geschwindigkeit des Modelltrainings vervierfacht und seine Lösung so skaliert, dass sie Hunderte von Anwendungsfällen abdeckt. Es half ihnen, die erforderlichen Rechenressourcen zu sichern und Modelle schnell zu trainieren.

Missing alt text value

NinjaTech

NinjaTech AI, ein Unternehmen für generative KI, das einen All-in-One-SuperAgent für unbegrenzte Produktivität anbietet, nutzte die flexiblen Trainingspläne von Amazon SageMaker HyperPod, um verschiedene interne Modelle, darunter das Modell Llama 3.1 405B, schneller zu optimieren, die Kosten für das Modelltraining zu senken und den Prozess zu automatisieren. Das Unternehmen möchte seinen Benutzern, die auf verschiedene KI-Agenten zugreifen möchten, die ihre SuperAgent-Technologie antreiben, ein nahtloses Erlebnis bieten. Um dies zu erreichen, benötigten sie ein Modell, das automatisch die Absicht des Benutzers vorhersagen und bestimmen konnte, welcher KI-Agent dafür geeignet wäre. Dieser Mechanismus erforderte häufige Aktualisierungen des Modells, indem Kundenfeedback und neue Features schrittweise integriert wurden, wobei bei jeder Runde der LoRA-Feinabstimmung 10 bis 100 Millionen Token verwendet wurden. Für ein Startup ist die Beschaffung und der Betrieb von Hochleistungs-Rechenressourcen aufgrund der hohen Kosten und Bandbreitenprobleme eine Herausforderung, insbesondere in Clustern mit mehreren Knoten, die neben beschleunigter Datenverarbeitung auch ein schnelles Netzwerk und schnellen Speicher erfordern. Darüber hinaus ist der Trainingsprozess zeitaufwendig und umfasst Schritte wie das Herunterladen des Modells, verteiltes Training, Checkpoint, Überwachung, automatische Fehlerbehebung, Zusammenführung und Quantisierung. Die flexiblen Trainingspläne von HyperPod ermöglichten es dem Unternehmen, bereits vor dem Trainingslauf zuverlässige und erschwingliche Rechenleistung zu erhalten, die den spezifischen Rechen- und Zeitanforderungen entsprach und gleichzeitig ein effizientes Modelltraining sicherstellte.

Missing alt text value

OpenBabylon

Entwickler und Datenwissenschaftler bei OpenBabylon, einem KI-Unternehmen, das große Sprachmodelle für unterrepräsentierte Sprachen anpasst, nutzen seit einigen Monaten die flexiblen Trainingspläne von SageMaker HyperPod, um auf GPU-Ressourcen zuzugreifen und Experimente in großem Maßstab durchzuführen. Mit den verteilten Trainingsfunktionen des SageMaker HyperPod mit mehreren Knoten führten sie 100 groß angelegte Modelltrainingsexperimente durch und erzielten bei der Übersetzung vom Englischen ins Ukrainische Ergebnisse auf dem neuesten Stand der Technik. Dieser Durchbruch wurde zeit- und kosteneffizient erreicht und zeigt, dass SageMaker HyperPod in der Lage ist, komplexe Projekte erfolgreich und im Rahmen des Zeit- und Budgetrahmens durchzuführen.

Missing alt text value

H.AI

„Mit Amazon SageMaker HyperPod haben wir die Basismodelle für unsere agentenbasierte KI-Plattform unter Verwendung derselben Hochleistungsrechner entwickelt und bereitgestellt. Dieser nahtlose Übergang vom Training zur Inferenz hat unseren Workflow optimiert, die Zeit bis zur Produktion verkürzt und eine konsistente Leistung in Live-Umgebungen gewährleistet. HyperPod hat uns dabei geholfen, schneller und effizienter vom Experimentstadium zur praktischen Anwendung zu gelangen.“

Laurent Sifre, Mitbegründer und CTO, H.AI

Missing alt text value

Datology AI

„Wir freuen uns darauf, die Ein-Klick-Lösung für Beobachtbarkeit von Amazon SageMaker HyperPod zu nutzen. Unsere leitenden Mitarbeiter benötigten Einblicke darüber, wie wir teure GPU-Ressourcen nutzen. Die vorgefertigten Grafana-Dashboards bieten uns genau das, was wir brauchen: sofortige Transparenz über wichtige Kennzahlen – von der aufgabenspezifischen GPU-Auslastung bis hin zur Leistung des Dateisystems (FSx für Lustre) –, ohne dass wir eine Überwachungsinfrastruktur unterhalten müssen. Als jemand, der die Leistungsfähigkeit der Prometheus-Abfragesprache schätzt, gefällt mir, dass ich meine eigenen Abfragen schreiben und benutzerdefinierte Metriken analysieren kann, ohne mich um Infrastrukturprobleme kümmern zu müssen.“

Josh Wills, Member of Technical Staff, Datology AI

Missing alt text value

Splash Music

„Mit SageMaker HyperPod und Trainium können unsere Forscher so schnell experimentieren, wie unsere Community neue Ideen entwickelt. Wir halten nicht nur mit den Musiktrends Schritt, sondern setzen sie.“

Randeep Bhatia, Chief Technology Officer, Splash Music

Missing alt text value

Amazon SageMaker HyperPod – Partner

Innovationen fördern und den Geschäftswert mit AWS-Partnern steigern, die über fundiertes technisches Wissen und nachgewiesenen Kundenerfolg verfügen

Accenture

„Wir erweitern unsere Partnerschaft mit AWS als Einführungspartner für die Governance von Amazon-SageMaker-HyperPod-Aufgaben. Unsere Zusammenarbeit mit AWS ermöglicht es uns, Kunden zu den neuesten technologischen Durchbrüchen zu führen und gleichzeitig dazu beizutragen, die Kosten für generative KI-Anwendungen zu senken. Durch die Zusammenführung zentralisierter Governance-Funktionen in SageMaker HyperPod und unserer Erfahrung mit generativen KI-Projekten können wir Unternehmen dabei helfen, den Wert generativer KI noch schneller zu erkennen, das Kundenerlebnis zu verbessern und die Investitionsrendite zu erhöhen.“

Jennifer Jackson, Global Lead for Accenture AWS Business Group & Senior Managing Director

Missing alt text value

Slalom

„Wir freuen uns sehr, mit AWS als Einführungspartner für die Governance von Amazon-SageMaker-HyperPod-Aufgaben zusammenzuarbeiten. In Zusammenarbeit mit AWS können wir unseren Kunden nun helfen, die neuesten technologischen Fortschritte schnell zu übernehmen und die Kosten ihrer generativen KI-Anwendungen zu senken. Durch die Zusammenführung zentralisierter Governance-Funktionen in SageMaker HyperPod mit der umfassenden KI- und Cloud-Erfahrung von Slalom können wir außergewöhnliche Kundenerlebnisse bieten und gleichzeitig eine höhere Investitionsrendite erzielen.“

Jeff Kempiners, Managing Director von Slalom’s Amazon Center of Excellence (CoE)

Missing alt text value

Rackspace Technology

„Wir freuen uns, mit AWS als Einführungspartner für die SageMaker-HyperPod-Aufgaben-Governance zusammenzuarbeiten. Gemeinsam können wir unseren Kunden helfen, die Kosten generativer KI-Anwendungen zu senken und gleichzeitig mit den neuesten technologischen Fortschritten Schritt zu halten. Durch die Kombination der zentralisierten Governance-Funktionen von SageMaker HyperPod mit der umfassenden KI- und Cloud-Expertise von Rackspace können wir das Kundenerlebnis transformieren und gleichzeitig ihre Kapitalrendite verbessern.“

Srini Koushik, President, AI, Technology and Sustainability bei Rackspace Technology

Missing alt text value

Haben Sie die gewünschten Informationen gefunden?

Ihr Beitrag hilft uns, die Qualität der Inhalte auf unseren Seiten zu verbessern.