- Amazon EC2›
- Instance-Typen›
- Trn2-Instances
Erste Schritte mit Trn2-Instances mit AWS Neuron
Hochleistungsfähige EC2-Datenverarbeitung für generatives KI-Training und Inferenz
Warum Amazon-EC2-Trn2-Instances und -UltraServer?
Amazon-EC2-Trn2-Instances, die auf 16 AWS-Trainium2-Chips basieren, wurden speziell für generative KI entwickelt und bieten leistungsstarke EC2-Instances für das Training und die Bereitstellung von Modellen mit Hunderten von Milliarden bis über Billionen Parametern. Trn2-Instances bieten ein 30–40 % besseres Preis-Leistungs-Verhältnis als GPU-basierte EC2-P5e- und P5en-Instances. Mit Trn2-Instances erhalten Sie modernste Trainings- und Inferenzleistung und senken gleichzeitig die Kosten, sodass Sie die Trainingszeiten reduzieren, schneller iterieren und KI-gestützte Erlebnisse in Echtzeit bereitstellen können. Sie können Trn2-Instances verwenden, um Modelle wie große Sprachmodelle (LLMs), multimodale Modelle und Diffusionstransformer zu trainieren und bereitzustellen, um generative KI-Anwendungen der nächsten Generation zu erstellen.
Zum Verkürzen der Trainingszeiten und zum Erzielen von bahnbrechenden Reaktionszeiten (Latenz pro Token) für die anspruchsvollsten Modelle auf dem neuesten Stand der Technik benötigen Sie möglicherweise mehr Rechenleistung und Arbeitsspeicher, als eine einzelne Instance bereitstellen kann. Trn2-UltraServer verwenden NeuronLink, unsere firmeneigene Chip-zu-Chip-Verbindung, um 64 Trainium2-Chips über 4 Trn2-Instances zu verbinden. Dadurch wird die in einem einzelnen Knoten verfügbare Rechen-, Speicher- und Netzwerkbandbreite vervierfacht und eine bahnbrechende Leistung in AWS für Deep-Learning- und generative KI-Workloads geboten. UltraServer bieten branchenweit führende Reaktionszeiten und ermöglichen so beste Echtzeit-Erlebnisse. Beim Training steigern UltraServer die Geschwindigkeit und Effizienz des Modelltrainings durch eine schnellere kollektive Kommunikation für Modellparallelität im Vergleich zu eigenständigen Instances.
Mit nativer Unterstützung für beliebte Frameworks von Machine Learning (ML) wie PyTorch und JAX können Sie problemlos mit Trn2-Instances und Trn2-UltraServern beginnen.
„Trn2-UltraServer sind jetzt für die anspruchsvollsten generativen KI-Workloads verfügbar.“
Vorteile
Trn2-Instances helfen Ihnen dabei, Ihre Trainingszeiten zu reduzieren und Ihren Endbenutzern ein Inferenzerlebnis in Echtzeit zu bieten. Trn2-Instances verfügen über 16 Trainium2-Chips, die mit NeuronLink, unserer firmeneigenen Chip-zu-Chip-Verbindung, miteinander verbunden sind, um bis zu 20,8 FP8 Petaflops an Rechenleistung zu liefern. Trn2-Instances verfügen über insgesamt 1,5 TB HBM3 mit einer Speicherbandbreite von 46 Terabyte pro Sekunde (TB/s) und 3,2 Terabit pro Sekunde (Tbit/s) an Netzwerken von Elastic Fabric Adapter (EFAv3). Trn2-UltraServer (in der Vorversion verfügbar) verfügen über 64 Trainium2-Chips, die mit NeuronLink verbunden sind, und liefern FP8-Rechenleistung von bis zu 83,2 Petaflops, insgesamt 6 TB Speicher mit hoher Bandbreite und 185 TB/s Gesamtspeicherbandbreite sowie 12,8 Tbit/s EFAv3-Netzwerk.
Trn2-Instances liefern 3,2 Tbit/s und Trn2-UltraServer 12,8 Tbit/s an EFAv3-Netzwerken, um effizientes verteiltes Training zu ermöglichen. EFA basiert auf dem AWS Nitro System, was bedeutet, dass die gesamte Kommunikation über EFA während der Übertragung verschlüsselt ist, ohne dass es zu Leistungseinbußen kommt. EFA verwendet außerdem ein ausgeklügeltes Protokoll zur Verkehrsweiterleitung und Überlastungskontrolle, das eine zuverlässige Skalierung auf Hunderttausende von Trainium2-Chips ermöglicht. Trn2-Instances und -UltraServer werden in EC2-UltraClustern bereitgestellt, um verteiltes Skalierungstraining auf Zehntausenden von Trainium-Chips in einem einzigen, blockierungsfreien Netzwerk im Petabit-Bereich zu ermöglichen.
Trn2-Instances bieten ein 30–40 % besseres Preis-Leistungs-Verhältnis als GPU-basierte EC2-P5e- und P5en-Instances
Trn2-Instances sind 3-mal energieeffizienter als Trn1-Instances. Diese Instances und die zugrundeliegenden Chips verwenden fortschrittliche Halbleiterprozesse sowie Hardware- und Softwareoptimierungen, um eine hohe Energieeffizienz bei der Ausführung generativer KI-Workloads in großem Maßstab zu erzielen.
Das AWS Neuron SDK hilft Ihnen dabei, die volle Leistung aus Trn2-Instances und UltraServern herauszuholen. Neuron lässt sich nativ in JAX, PyTorch und wichtige Bibliotheken wie Hugging Face, PyTorch Lightning und andere integrieren. Neuron wurde für KI-Forscher und Entdecker entwickelt, um bahnbrechende Leistung zu erzielen. Mit der nativen PyTorch-Integration können Sie trainieren und bereitstellen, ohne eine einzige Codezeile zu ändern. Für KI-Leistungsingenieure haben wir einen umfassenderen Zugriff auf Trainium 2 ermöglicht, sodass Sie die Leistung optimieren, Kernel anpassen und Ihre Modelle noch weiter vorantreiben können. Mit Neuron können Sie Trn2-Instances mit Services wie Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster und AWS Batch sowie mit Services von Drittanbietern wie Ray (Anyscale), Domino Data Lab und Datadog verwenden. Weil Innovation von Offenheit lebt, setzt sich Neuron dafür ein, Innovationen durch Open Source und offene Zusammenarbeit mit der breiten KI-Community voranzutreiben.
Features
Trn2-Instances verfügen über 16 Trainium2-Chips, die mit NeuronLink miteinander verbunden sind, um bis zu 20,8 FP8 Petaflops an Rechenleistung zu liefern. Trn2-UltraServer erweitern die NeuronLink-Konnektivität auf 64 Trainium2-Chips über 4 Trn2-Instances und bieten so Rechenleistung von bis zu 83,2 FP8 Petaflops.
Trn2-Instances bieten 1,5 TB Beschleunigerspeicher mit einer Gesamtspeicherbandbreite von 46 TB/s. Trn2-UltraServer bieten 6 TB gemeinsamen Beschleunigerspeicher mit 185 TB/s Gesamtspeicherbandbreite für extrem große Basismodelle.
Zur Unterstützung des verteilten Skalierungstrainings von extrem großen Basismodellen bieten Trn2-Instances 3,2 Tbit/s und Trn2-UltraServer 12,8 Tbit/s an EFAv3-Netzwerkbandbreite. In Kombination mit EC2-UltraClustern bietet EFAv3 im Vergleich zu EFAv2 eine geringere Netzwerklatenz. Jede Trn2-Instance unterstützt bis zu 8 TB und jeder Trn2-UltraServer unterstützt bis zu 32 TB lokalen NVMe-Speicher für einen schnelleren Zugriff auf große Datensätze.
Trn2-Instances und -UltraServer unterstützen FP32, TF32, BF16, FP16 und die konfigurierbaren FP8-Datentypen (cFP8). Es unterstützt auch modernste KI-Optimierungen, darunter 4-fache Spärlichkeit (16:4), stochastisches Runden und dedizierte kollektive Engines. Das Neuron Kernel Interface (NKI) ermöglicht den direkten Zugriff auf die Befehlssatzarchitektur (ISA) unter Verwendung einer auf Python basierten Umgebung mit einer Triton-ähnlichen Schnittstelle, sodass Sie neue Modellarchitekturen und hochoptimierte Rechenkerne entwickeln können, die bestehende Techniken übertreffen.
Neuron unterstützt über 100 000 Modelle auf dem Hugging-Face-Modell-Hub für Training und Bereitstellung in Trn2, einschließlich beliebter Modellarchitekturen wie Llama und Stable Diffusion. Neuron lässt sich nativ in JAX, PyTorch und wichtige Tools, Frameworks und Bibliotheken wie NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab und Data Dog integrieren. AWS Neuron optimiert sofort einsatzbereite Modelle für verteiltes Training und Inferenz und bietet gleichzeitig tiefe Einblicke für die Profilerstellung und das Debuggen. Neuron lässt sich auch in Services wie Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster und AWS Batch integrieren.
Empfehlungen von Kunden und Partnern
Hier sind einige Beispiele dafür, wie Kunden und Partner planen, ihre Geschäftsziele mit Amazon-EC2-Trn2-Instances zu erreichen.
Anthropic
Bei Anthropic verlassen sich Millionen von Menschen täglich bei ihrer Arbeit auf Claude. Wir kündigen zwei wichtige Fortschritte bei AWS an: Erstens einen neuen „latenzoptimierten Modus“ für Claude 3.5 Haiku, der auf Trainium2 über Amazon Bedrock 60 % schneller läuft. Und zweitens Project Rainier – ein neuer Cluster mit Hunderttausenden von Trainium2-Chips, die Hunderte von Exaflops liefern, was über dem Fünffachen der Größe unseres vorherigen Clusters entspricht. Projekt Rainier wird dazu beitragen, sowohl unsere Forschung als auch unsere nächste Generation der Skalierung voranzutreiben. Für unsere Kunden bedeutet das mehr Intelligenz, niedrigere Preise und höhere Geschwindigkeiten. Wir entwickeln nicht nur schnellere KI, wir entwickeln vertrauenswürdige KI, die skalierbar ist.
Databricks
Die Mosaic AI von Databricks ermöglicht es Unternehmen, hochwertige Agentensysteme zu entwickeln und einzusetzen. Es basiert nativ auf dem Data Lakehouse und ermöglicht es Kunden, ihre Modelle einfach und sicher an Unternehmensdaten anzupassen und genauere und domainspezifische Ergebnisse zu liefern. Dank der hohen Leistung und Wirtschaftlichkeit von Trainium können Kunden Modelltraining auf Mosaic AI zu niedrigen Kosten skalieren. Die Verfügbarkeit von Trainium2 wird für Databricks und seine Kunden ein großer Vorteil sein, da die Nachfrage nach Mosaic AI in allen Kundensegmenten und auf der ganzen Welt weiter steigt. Databricks, eines der größten Daten- und KI-Unternehmen der Welt, plant, TRN2 zu nutzen, um bessere Ergebnisse zu erzielen und die Gesamtbetriebskosten für seine Kunden um bis zu 30 % zu senken.
poolside
Wir bei poolside wollen eine Welt schaffen, in der KI den Großteil der wirtschaftlich wertvollen Arbeit und des wissenschaftlichen Fortschritts bestimmt. Wir glauben, dass Softwareentwicklung die erste wichtige Fähigkeit in neuronalen Netzwerken sein wird, die Intelligenz auf menschlicher Ebene erreicht, da wir Such- und Lernansätze in diesem Bereich am besten kombinieren können. Wir entwickeln Basismodelle, eine API und einen Assistenten, um die Leistungsfähigkeit generativer KI in die Hände (oder die Tastatur) Ihrer Entwickler zu bringen, um dies zu ermöglichen. Ein wichtiger Schlüssel zum Ermöglichen dieser Technologie ist die Infrastruktur, die wir für die Entwicklung und den Betrieb unserer Produkte verwenden. Mit AWS Trainium2 können unsere Kunden ihre Nutzung von poolside zu einem Preis-Leistungs-Verhältnis skalieren, das sich von dem anderer KI-Beschleuniger unterscheidet. Darüber hinaus planen wir, zukünftige Modelle mit Trainium2-UltraServern zu trainieren, was zu erwartenden Einsparungen von 40 % im Vergleich zu EC2-P5-Instances führen wird.
Itaú Unibanco
Das Ziel von Itaú Unibanco ist es, das Verhältnis der Menschen zu Geld zu verbessern, positive Auswirkungen auf ihr Leben zu haben und gleichzeitig ihre Transformationsmöglichkeiten zu erweitern. Wir bei Itaú Unibanco glauben, dass jeder Kunde einzigartig ist, und wir konzentrieren uns darauf, seine Bedürfnisse durch intuitive digitale Reisen zu erfüllen, die die Leistungsfähigkeit der KI nutzen, um sich ständig an ihre Verbrauchergewohnheiten anzupassen.
Wir haben AWS Trainium und Inferentia bei verschiedenen Aufgaben getestet, die von Standardinferenzen bis hin zu optimierten Anwendungen reichten. Die Leistung dieser KI-Chips hat es uns ermöglicht, wichtige Meilensteine in unserer Forschung und Entwicklung zu erreichen. Sowohl bei Batch- als auch bei Online-Inferenzaufgaben haben wir im Vergleich zu GPUs eine 7-fache Verbesserung des Durchsatzes festgestellt. Diese verbesserte Leistung treibt die Ausweitung von mehr Anwendungsfällen im gesamten Unternehmen voran. Die neueste Generation von Trainium2-Chips ermöglicht bahnbrechende Features für GenKI und öffnet die Tür für Innovationen bei Itaú.
NinjaTech AI
Ninja ist ein umfassender KI-Agent für grenzenlose Produktivität: ein einfaches Abonnement, unbegrenzter Zugriff auf die weltbesten KI-Modelle sowie erstklassige KI-Fähigkeiten wie: Schreiben, Programmieren, Brainstorming, Bilderzeugung, Online-Recherche. Ninja ist eine agentenbasierte Plattform und bietet den „SuperAgent“, der eine Agentenmischung mit einer erstklassigen Genauigkeit verwendet, die mit Frontier-Basismodellen vergleichbar ist (und in einigen Kategorien sogar übertrifft). Die Agententechnologie von Ninja erfordert die leistungsstärksten Beschleuniger, um die einzigartigen Echtzeiterlebnisse zu bieten, die unsere Kunden erwarten.
Wir freuen uns sehr über die Einführung von AWS TRN2, da wir glauben, dass es die besten Kosten pro Token und die schnellste Geschwindigkeit bietet, die derzeit für unser Kernmodell Ninja LLM möglich ist, das auf Llama 3.1 405B basiert. Die niedrige Latenz von Trn2 in Verbindung mit wettbewerbsfähigen Preisen und On-Demand-Verfügbarkeit ist erstaunlich. Wir freuen uns über die Ankunft von Trn2!
Ricoh
Das RICOH-Team für Machine Learning entwickelt Arbeitsplatzlösungen und digitale Transformationsservices zur Verwaltung und Optimierung des Informationsflusses in unseren Unternehmenslösungen.
Die Migration zu Trn1-Instances war einfach und unkompliziert. Wir konnten unser LLM mit 13B-Parametern in nur 8 Tagen vortrainieren, wobei wir einen Cluster von 4 096 Trainium-Chips verwendeten! Nach dem Erfolg, den wir mit unserem kleineren Modell gesehen haben, haben wir ein neues, größeres LLM auf Basis von Llama-3-Swallow-70B optimiert. Mithilfe von Trainium konnten wir unsere Trainingskosten um 50 % senken und die Energieeffizienz im Vergleich zur Verwendung der neuesten GPU-Maschinen in AWS um 25 % verbessern. Wir freuen uns, die neueste Generation von AWS-KI-Chips, Trainium2, zu nutzen, um unseren Kunden weiterhin die beste Leistung zu den niedrigsten Kosten zu bieten.
PyTorch
Was mir an der AWS-Neuron-NxD-Inference-Bibliothek am besten gefallen hat, ist die nahtlose Integration in PyTorch-Modelle. Der Ansatz von NxD ist einfach und benutzerfreundlich. Unser Team war in der Lage, HuggingFace-PyTorch-Modelle mit minimalen Codeänderungen in einem kurzen Zeitrahmen zu integrieren. Die Aktivierung erweiterter Features wie Continuous Batching und Speculative Decoding war unkompliziert. Diese Benutzerfreundlichkeit erhöht die Produktivität der Entwickler und ermöglicht es den Teams, sich mehr auf Innovationen und weniger auf Integrationsprobleme zu konzentrieren.
Refact.ai
Refact.ai bietet umfassende KI-Tools wie die automatische Codevervollständigung auf Basis von Retrieval Augmented Generation (RAG), die genauere Vorschläge liefert, und einen kontextsensitiven Chat, der sowohl proprietäre als auch Open-Source-Modelle verwendet.
Kunden haben bei EC2-Inf2-Instances im Vergleich zu EC2-G5-Instances eine bis zu 20 % höhere Leistung und 1,5-mal höhere Token pro Dollar festgestellt. Die Optimierungsfunktionen von Refact.ai verbessern die Fähigkeit unserer Kunden, die einzigartige Codebasis und Umgebung ihrer Organisationen zu verstehen und sich an sie anzupassen. Wir freuen uns auch, die Funktionen von Trainium2 anbieten zu können, die unsere Workflows noch schneller und effizienter verarbeiten werden. Diese fortschrittliche Technologie wird es unseren Kunden ermöglichen, ihren Softwareentwicklungsprozess zu beschleunigen, indem sie die Produktivität der Entwickler steigert und gleichzeitig strenge Sicherheitsstandards für ihre Codebasis einhält.
Karakuri Inc.
KARAKURI entwickelt KI-Tools, um die Effizienz des webbasierten Kundensupports zu verbessern und das Kundenerlebnis zu vereinfachen. Zu diesen Tools gehören KI-Chatbots, die mit Funktionen der generativen KI ausgestattet sind, Tools zur Zentralisierung von häufig gestellten Fragen und ein E-Mail-Antwort-Tool, die alle die Effizienz und Qualität des Kundensupports verbessern. Mithilfe von AWS Trainium ist es uns gelungen, KARAKURI LM 8x7B Chat v0.1 zu trainieren. Für Startups wie uns müssen wir die Entwicklungszeit und die Kosten für das Training von LLMs optimieren. Mit der Unterstützung von AWS Trainium und dem AWS-Team konnten wir in kurzer Zeit ein LLM auf praktischem Niveau entwickeln. Durch die Einführung von AWS Inferentia waren wir außerdem in der Lage, einen schnellen und kostengünstigen Inferenzservice aufzubauen. Wir sind begeistert von Trainium2, weil es unseren Trainingsprozess revolutionieren wird, unsere Trainingszeit um das 2-fache reduzieren und die Effizienz auf ein neues Niveau bringen wird!
Stockmark Inc.
Mit dem Ziel, „den Mechanismus der Wertschöpfung neu zu erfinden und die Menschheit voranzubringen“, unterstützt Stockmark viele Unternehmen bei der Gründung und dem Aufbau innovativer Unternehmen, indem es modernste Technologie zur Verarbeitung natürlicher Sprache bereitstellt. Stockmarks neuer Datenanalyse- und -erfassungsservice namens Anews and SAT, ein Datenstrukturierungsservice, der die Nutzung generativer KI erheblich verbessert, indem er alle in einer Organisation gespeicherten Informationen organisiert, erforderte von uns ein Umdenken bei der Erstellung und Bereitstellung von Modellen zur Unterstützung dieser Produkte. Mit 256 Trainium-Beschleunigern haben wir Stockmark-13b entwickelt und veröffentlicht, ein großes Sprachmodell mit 13 Milliarden Parametern, das auf einem japanischen Korpusdatensatz von 220B-Token von Grund auf neu trainiert wurde. Trn1-Instances haben uns geholfen, unsere Trainingskosten um 20 % zu senken. Mithilfe von Trainium haben wir erfolgreich ein LLM entwickelt, das geschäftskritische Fragen für Fachleute mit beispielloser Genauigkeit und Geschwindigkeit beantworten kann. Diese Leistung ist besonders bemerkenswert angesichts der großen Herausforderung, vor der Unternehmen stehen, angemessene Rechenressourcen für die Modellentwicklung zu sichern. Angesichts der beeindruckenden Geschwindigkeit und Kostenreduzierung von Trn1-Instances freuen wir uns über die zusätzlichen Vorteile, die Trainium2 unseren Workflows und Kunden bieten wird.
Erste Schritte
Die SageMaker-Unterstützung für Trn2-Instances ist in Kürze verfügbar. Sie können Modelle problemlos auf Trn2-Instances trainieren, indem Sie Amazon SageMaker HyperPod verwenden, das einen stabilen Rechencluster, eine optimierte Trainingsleistung und eine effiziente Nutzung der zugrundeliegenden Rechen-, Netzwerk- und Speicherressourcen bietet. Sie können Ihre Modellbereitstellung auch auf Trn2-Instances mithilfe von SageMaker skalieren, um Modelle in der Produktion effizienter zu verwalten und die betriebliche Belastung zu reduzieren.
Die AWS Deep Learning AMIs (DLAMI) bieten Deep Learning (DL)-Praktikern und -Forschern die Infrastruktur und Tools, um DL in AWS in jedem Maß zu beschleunigen. Die AWS-Neuron-Treiber sind in der DLAMI vorkonfiguriert, um Ihre DL-Modelle optimal auf Trn2-Instances zu trainieren.
Die Unterstützung von Deep Learning Containers für Trn2-Instances ist in Kürze verfügbar. Mit diesen Containern können Sie jetzt Trn2-Instances in Amazon Elastic Kubernetes Service (Amazon EKS), einem vollständig verwalteten Kubernetes-Service, und in Amazon Elastic Container Service (Amazon ECS), einem vollständig verwalteten Container-Orchestrierungsservice, bereitstellen. Neuron ist auch in AWS Deep Learning Containers vorinstalliert verfügbar. Weitere Informationen zum Ausführen von Containern auf Trn2-Instances finden Sie in den Tutorials zu Neuron-Containern.
Produktdetails
|
Instance Size
|
Available in EC2 UltraServers
|
Trainium2 chips
|
Accelerator memory
|
vCPUs
|
Memory (TB)
|
Instance storage (TB)
|
Network bandwidth (Tbps)
|
EBS bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|
|
Trn2.3xlarge
|
Nein |
1 |
96 GB |
12 |
128 GB |
1x 470 GB NVMe SSD
|
200 |
5 |
|
trn2.48xlarge
|
Nein
|
16
|
1,5 TB
|
192
|
2 TB
|
4 x 1,92 NVMe-SSD
|
3,2
|
80
|
|
trn2u.48xlarge
|
Ja |
16
|
1,5 TB
|
192
|
2 TB
|
4 x 1,92 NVMe-SSD
|
3,2
|
80
|