AWS-KI-Chips

AWS Inferentia

Erzielen Sie eine hohe Leistung bei niedrigsten Kosten in Amazon EC2 für Deep Learning und Inferenz für generative KI

Erste Schritte mit AWS-Inferentia-Chips mit AWS Neuron

Warum Inferentia?

AWS-Inferentia-Chips wurden von AWS entwickelt, um Ihnen in Amazon EC2 eine hohe Leistung zu den niedrigsten Kosten für Ihre Inferenzanwendungen im Bereich Deep Learning (DL) und generative KI zu bieten.

Der AWS-Inferentia-Chip der ersten Generation unterstützt Inf1-Instances von Amazon Elastic Compute Cloud (Amazon EC2), die einen bis zu 2,3-mal höheren Durchsatz und bis zu 70 % geringere Kosten pro Inferenz als vergleichbare Amazon-EC2-Instances bieten. Viele Kunden, darunter Finch AI, Sprinklr, Money Forward und Amazon Alexa, haben Inf1-Instances eingeführt und die Leistungs- und Kostenvorteile erkannt.

Der AWS-Inferentia2-Chip bietet einen bis zu 4-mal höheren Durchsatz und eine bis zu 10-mal niedrigere Latenzzeit im Vergleich zu Inferentia. Inferentia2-basierte Amazon-EC2-Inf2-Instances sind für die skalierbare Bereitstellung zunehmend komplexer Modelle wie große Sprachmodelle (LLM) und latenter Diffusionsmodelle optimiert. Inf2-Instances sind die ersten für Inferenzen optimierten Instances in Amazon EC2, die skalierbare verteilte Inferenzen mit Ultra-Hochgeschwindigkeitskonnektivität zwischen Chips unterstützen. Viele Kunden, darunter Leonardo.ai, Deutsche Telekom und Qualtrics, haben Inf2-Instances für ihre Anwendungen für DL und generative KI eingeführt.

AWS Neuron SDK hilft Entwicklern, Modelle auf den AWS-Inferentia-Chips bereitzustellen (und sie auf AWS-Trainium-Chips zu trainieren). AWS Neuron SDK lässt sich nativ in gängige Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie Ihren bestehenden Code und Workflows weiter nutzen und auf Inferentia-Chips ausführen können.

Vorteile von AWS Inferentia

Jeder Inferentia-Chip der ersten Generation hat 4 NeuronCores der ersten Generation, und jede EC2-Inf1-Instance hat bis zu 16 Inferentia-Chips. Jeder Inferentia2-Chip hat 2 NeuronCores der zweiten Generation, und jede EC2-Inf2-Instance hat bis zu 12 Inferentia2-Chips. Jeder Inferentia2-Chip unterstützt bis zu 190 Tera-Gleitkommaoperationen pro Sekunde (TFLOPS) an FP16-Leistung. Die erste Generation von Inferentia verfügt über 8 GB DDR4-Speicher pro Chip und bietet außerdem eine große Menge an On-Chip-Speicher. Inferentia2 bietet 32 GB HBM pro Chip, was den Gesamtspeicher um das Vierfache und die Speicherbandbreite um das Zehnfache gegenüber Inferentia erhöht.

AWS Neuron SDK lässt sich nativ in beliebte ML-Frameworks wie PyTorch und TensorFlow integrieren. Mit AWS Neuron können Sie diese Frameworks nutzen, um DL-Modelle auf beiden AWS-Inferentia-Chips bereitzustellen, und Neuron ist so konzipiert, dass Codeänderungen und die Bindung an anbieterspezifische Lösungen minimiert werden. Neuron hilft Ihnen, Ihre Inferenzanwendungen für natürliche Sprachverarbeitung (NLP)/Verständnis, Sprachübersetzung, Textzusammenfassung, Video- und Bilderzeugung, Spracherkennung, Personalisierung, Betrugserkennung und mehr auf Inferentia-Chips auszuführen.

Inferentia der ersten Generation unterstützt die Datentypen FP16, BF16 und INT8. Inferentia2 bietet zusätzliche Unterstützung für FP32, TF32 und den neuen konfigurierbaren FP8 (cFP8) Datentyp, um Entwicklern mehr Flexibilität zur Optimierung von Leistung und Genauigkeit zu bieten. AWS Neuron übernimmt hochpräzise FP32-Modelle und wandelt sie automatisch in Datentypen mit geringerer Genauigkeit um, wobei Genauigkeit und Leistung optimiert werden. Autocasting verkürzt die Zeit bis zur Markteinführung, da kein erneutes Training mit geringerer Präzision erforderlich ist.

Inferentia2 bietet Hardware-Optimierungen für dynamische Eingabegrößen und benutzerdefinierte, in C++ geschriebene Operatoren. Es unterstützt auch das stochastische Runden, eine Art des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.

Inf2-Instances bieten eine bis zu 50 % bessere Leistung pro Watt im Vergleich zu vergleichbaren Amazon-EC2-Instances, da sie und die zugrundeliegenden Inferentia2-Chips speziell für die Ausführung von DL-Modellen in großem Maßstab entwickelt wurden. Inf2-Instances helfen Ihnen, Ihre Nachhaltigkeitsziele bei der Bereitstellung extrem großer Modelle zu erreichen.

Karakuri

Erfahren Sie, wie Karakuri mithilfe von AWS Inferentia leistungsstarke KI bereitstellt und gleichzeitig die Kosten unter Kontrolle hält

Video ansehen

Metagenomi

Erfahren Sie, wie Metagenomi mithilfe von AWS Inferentia die Kosten für groß angelegte Proteindesigns um bis zu 56 % senkte

Blog lesen

NetoAI

Erfahren Sie, wie netOAI mit AWS Inferentia2 eine Inferenzlatenz von 300–600 ms erreicht hat

Kundenempfehlung lesen

Tomofun

Erfahren Sie, wie Tomofun durch die Migration zu AWS Inferentia die Bereitstellungskosten für BLIP-Inferenzen um 83 % senkte

Kundenempfehlung lesen

SplashMusic

Erfahren Sie, wie SplashMusic mit AWS Inferentia die Inferenzlatenz
um das bis zu 10-fache reduziert hat

Kundenempfehlung lesen

Leonardo.ai

Unser Team bei Leonardo nutzt generative KI, um Kreativprofis und -enthusiasten in die Lage zu versetzen, visuelle Inhalte mit unübertroffener Qualität, Geschwindigkeit und Stilkonsistenz zu produzieren. Mit AWS Inferentia2 sind wir in der Lage, unsere Kosten ohne Leistungseinbußen um 80 % zu senken, was das Wertversprechen, das wir unseren Kunden bieten können, grundlegend verändert, indem wir unsere fortschrittlichsten Features zu einem günstigeren Preis anbieten. Außerdem werden dadurch Bedenken hinsichtlich der Kosten und der Verfügbarkeit von Kapazitäten für unsere zusätzlichen KI-Dienste ausgeräumt, die mit unserem Wachstum und unserer Größe immer wichtiger werden. Sie ist eine Schlüsseltechnologie für uns, mit der wir die Grenzen dessen, was mit generativer KI möglich ist, weiter ausreizen und eine neue Ära der Kreativität und Ausdruckskraft für unsere Nutzer ermöglichen.

Pete Werner, Head of AI, Leonardo.ai

Qualtrics

Qualtrics entwirft und entwickelt Software für das Erfahrungsmanagement.

Bei Qualtrics konzentrieren wir uns auf die Entwicklung von Technologien, die Erfahrungslücken für Kunden, Mitarbeiter, Marken und Produkte schließen. Um dies zu erreichen, entwickeln wir komplexe Multi-Task- und multimodale DL-Modelle, um neue Features einzuführen, wie z. B. Textklassifizierung, Sequenz-Tagging, Diskursanalyse, Extraktion von Schlüsselsätzen, Themenextraktion, Clustering und durchgängiges Gesprächsverständnis. Da wir diese komplexeren Modelle in immer mehr Anwendungen einsetzen, wächst das Volumen an unstrukturierten Daten, und wir benötigen leistungsfähigere, inferenzoptimierte Lösungen, die diesen Anforderungen gerecht werden, wie z. B. Inf2-Instances, um unseren Kunden die besten Erlebnisse zu bieten. Wir freuen uns über die neuen Inf2-Instances, weil wir damit nicht nur einen höheren Durchsatz erzielen und gleichzeitig die Latenzzeit drastisch reduzieren können, sondern auch Features wie verteilte Inferenz und verbesserte Unterstützung für dynamische Eingabeformen einführen, die uns bei der Skalierung helfen werden, um den Bereitstellungsanforderungen gerecht zu werden, wenn wir auf größere, komplexere große Modelle zusteuern.

Aaron Colak, Head of Core Machine Learning, Qualtrics

Finch Computing

Finch Computing ist ein Technologieunternehmen für natürliche Sprache, das Anwendungen für künstliche Intelligenz für Behörden, Finanzdienstleistungen und Datenintegratoren anbietet.

Um den Bedürfnissen unserer Kunden nach Echtzeit-NLP gerecht zu werden, entwickeln wir hochmoderne DL-Modelle, die sich für große Produktions-Workloads skalieren lassen. Wir müssen Transaktionen mit niedrigen Latenzzeiten anbieten und hohe Durchsätze erreichen, um globale Datenströme zu verarbeiten. Wir haben bereits viele Produktions-Workloads auf Inf1-Instances migriert und dabei eine Kostenreduzierung von 80 % gegenüber GPUs erzielt. Jetzt entwickeln wir größere, komplexere Modelle, die eine tiefere, aufschlussreichere Bedeutung von geschriebenen Texten ermöglichen. Viele unserer Kunden benötigen den Zugang zu diesen Erkenntnissen in Echtzeit, und die Leistung der Inf2-Instances wird uns helfen, niedrigere Latenzzeiten und einen höheren Durchsatz als bei Inf1-Instances zu erzielen. Mit den Leistungsverbesserungen von Inf2 und den neuen Inf2-Features, wie der Unterstützung dynamischer Eingabegrößen, verbessern wir unsere Kosteneffizienz, erhöhen das Echtzeit-Kundenerlebnis und helfen unseren Kunden, neue Erkenntnisse aus ihren Daten zu gewinnen.

Franz Weckesser, Chief Architect, Finch Computing

Dataminr

Wir informieren über viele Arten von Ereignissen auf der ganzen Welt in vielen Sprachen und in verschiedenen Formaten (Bilder, Video, Audio, Textsensoren, Kombinationen all dieser Typen) aus Hunderttausenden von Quellen. Angesichts dieser Größenordnung ist die Optimierung im Hinblick auf Geschwindigkeit und Kosten für unser Geschäft von entscheidender Bedeutung. Mit AWS Inferentia haben wir die Modelllatenz gesenkt und einen bis zu 9-mal besseren Durchsatz pro Dollar erzielt. Dies hat es uns ermöglicht, die Modellgenauigkeit zu erhöhen und die Fähigkeiten unserer Plattform zu erweitern, indem wir anspruchsvollere DL-Modelle einsetzen und 5-mal mehr Datenvolumen verarbeiten konnten, während wir gleichzeitig unsere Kosten unter Kontrolle hielten.

Alex Jaimes, Chief Scientist und Senior Vice President of AI, Dataminr

Snap Inc.

Wir integrieren ML in viele Aspekte von Snapchat und die Erforschung von Innovationen in diesem Bereich hat für uns oberste Priorität. Als wir von Inferentia hörten, begannen wir, mit AWS zusammenzuarbeiten, um Inf1-/Inferentia-Instances einzuführen, die uns bei der Bereitstellung von ML helfen sollten, auch im Hinblick auf Leistung und Kosten. Wir haben mit unseren Empfehlungsmodellen begonnen und freuen uns darauf, in Zukunft weitere Modelle mit den Inf1-Instances einzuführen.

Nima Khajehnouri, VP Engineering, Snap Inc.

Sprinklr

Die KI-gesteuerte Unified Customer Experience Management (Unified-CXM, einheitliches Kundenerlebnis-Management)-Plattform von Sprinklr ermöglicht es Unternehmen, Kundenfeedback in Echtzeit über mehrere Kanäle hinweg zu sammeln und in verwertbare Erkenntnisse umzuwandeln – mit dem Ergebnis einer proaktiven Problemlösung, einer verbesserten Produktentwicklung, eines verbesserten Content-Marketings, eines besseren Kundenservices und mehr. Mit Amazon EC2 Inf1 könnten wir die Leistung einer unserer NLP-Modelle wesentlich steigern und auch die Leistung eines unserer Computer-Vision-Modelle verbessern. Wir freuen uns darauf, weiterhin Amazon EC2 Inf1 zu verwenden, um unsere globalen Kunden besser unterstützen zu können.

Vasant Srinivasan, Senior Vice President of Product Engineering bei Sprinklr

Autodesk

Autodesk treibt die kognitive Technologie unseres KI-gestützten virtuellen Assistenten, Autodesk Virtual Agent (AVA), mit Hilfe von Inferentia voran. AVA beantwortet mehr als 100 000 Kundenfragen pro Monat durch Anwendung von natürlichem Sprachverständnis (NLU) und DL-Techniken, um den Kontext, die Absicht und die Bedeutung hinter den Anfragen zu extrahieren. Durch die Pilotierung von Inferentia sind wir in der Lage, einen 4,9-fach höheren Durchsatz als G4dn für unsere NLU-Modelle zu erzielen, und wir freuen uns darauf, mehr Workloads auf den Inferentia-basierten Inf1-Instances auszuführen.

Binghui Ouyang, Sr. Data Scientist, Autodesk

Screening Eagle Technologies

Der Einsatz von Bodenradar und die Erkennung visueller Mängel ist normalerweise die Domain von Vermessungsfachleuten. Eine auf Microservices basierende AWS-Architektur ermöglicht uns die Verarbeitung von Videos, die von automatischen Inspektionsfahrzeugen und Inspektoren aufgenommen wurden. Die Migration unserer hausintern erstellten Modelle von herkömmlichen GPU-basierten Instances zu Inferentia ermöglichte uns eine Kostenreduzierung um 50 %. Zudem konnten wir Leistungssteigerungen beim Vergleich der Zeiten mit einer G4dn-GPU-Instance feststellen. Unser Team freut sich darauf, mehr Workloads auf den Inferentia-basierten Inf1-Instances auszuführen.

Jesús Hormigo, Chief of Cloud and AI Officer, Screening Eagle Technologies

NTT PC Communications Inc.

NTT PC Communications, ein Anbieter von Netzwerk-Services und Kommunikationslösungen in Japan, ist ein führendes Telekommunikationsunternehmen bei der Einführung neuer innovativer Produkte auf dem Informations- und Kommunikationstechnologie-Markt.

NTT PC hat AnyMotion entwickelt, einen API-Plattformservice zur Bewegungsanalyse, der auf fortschrittlichen ML-Modellen zur Haltungsschätzung basiert. Wir haben unsere AnyMotion-Plattform auf Amazon-EC2-Inf1-Instances mithilfe von Amazon ECS für einen vollständig verwalteten Container-Orchestrierungsservice bereitgestellt. Durch die Bereitstellung unserer AnyMotion-Container auf Amazon EC2 Inf1 konnten wir im Vergleich zu GPU-basierten EC2-Instances der aktuellen Generation eine 4,5-fach höhere Durchsatzrate, eine um 25 % niedrigere Inferenzlatenz und 90 % niedrigere Kosten erzielen. Diese hervorragenden Ergebnisse werden dazu beitragen, die Qualität der AnyMotion-Services im großen Maßstab zu verbessern.

Toshiki Yanagisawa, Software Engineer, NTT PC Communications Inc.

Anthem

Anthem ist eines der führenden Unternehmen der Nation im Bereich der Gesundheitsfürsorge, das die Bedürfnisse von über 40 Millionen Mitgliedern in Dutzenden von Bundesstaaten erfüllt.

Der Markt der digitalen Gesundheitsplattformen wächst mit einer bemerkenswerten Geschwindigkeit. Das Sammeln von Informationen über diesen Markt ist aufgrund der riesigen Menge an Kundenmeinungsdaten und seiner unstrukturierten Natur eine schwierige Aufgabe. Unsere Anwendung automatisiert die Generierung von handlungsrelevanten Erkenntnissen aus Kundenmeinungen über natürlichsprachliche DL-Modelle (Transformers). Unsere Anwendung ist rechenintensiv und muss hochleistungsfähig bereitgestellt werden. Wir stellten unseren DL-Inferencing-Workload nahtlos auf Amazon-EC2-Inf1-Instances bereit, die mit dem AWS-Inferentia-Prozessor betrieben werden. Die neuen Inf1-Instances bieten einen 2-fach höheren Durchsatz für GPU-basierte Instances und ermöglichten es uns, unsere Inferenz-Workloads zu rationalisieren.

Numan Laanait and Miro Mihaylov, PhDs, Principal AI/Data Scientists, Anthem

Videos

Ein Blick hinter die Kulissen der Infrastruktur für generative KI bei Amazon

Einführung in Amazon-EC2-Inf2-Instances, die von AWS Inferentia2 unterstützt werden

Wie vier AWS-Kunden mit AWS Inferentia die ML-Kosten senkten und Innovationen vorantrieben

Ressourcen

Blog

Optimieren und implementieren Sie Llama-2-Modelle kosteneffizient in Amazon SageMaker JumpStart mit AWS Inferentia und AWS Trainium

Blog lesen

Blog

Optimieren Sie Llama 2 mit QLoRA und stellen Sie es mit AWS Inferentia2 in Amazon SageMaker bereit

Blog lesen

Blog

Erhöhen Sie die Stable Diffusion-Leistung und senken Sie die Inferenzkosten mit AWS Inferentia2

Blog lesen

Blog

Erzielen Sie eine hohe Leistung bei niedrigsten Kosten für generative KI-Inferenz mit AWS Inferentia2 und AWS Trainium in Amazon SageMaker

Blog lesen

Blog

ByteDance spart mit AWS Inferentia bis zu 60 % der Inferenzkosten ein und reduziert gleichzeitig die Latenz und erhöht den Durchsatz

Blog lesen

Blog

Wie Amazon Search mit AWS Inferentia die Kosten für ML-Inferenzen um 85 % reduzierte

Blog lesen

Weitere Ressourcen

Verwenden Sie AWS Neuron und beginnen Sie mit AWS Inferentia in TensorFlow, PyTorch oder MXNet

Weitere Informationen

Weitere Ressourcen

Feature-Roadmap von AWS Neuron

Weitere Informationen

Weitere Ressourcen

Mit diesen einfachen Tutorials können Sie mit Inferenz in AWS Inferentia beginnen

Weitere Informationen

Erste Schritte mit AWS Inferentia

Weitere Informationen

Konsole

Beginnen Sie mit der Entwicklung in der Konsole

Anmelden

Kostenloses Kontingent

Inferenzbeispiele/Tutorials (Inf2/Trn1)

Weitere Informationen

AWS Inferentia

Warum Inferentia?

Vorteile von AWS Inferentia

Optimiert für hohen Durchsatz und niedrige Latenz

Native Unterstützung für ML-Frameworks

Große Auswahl an Datentypen mit automatischem Casting

Modernste DL-Fähigkeiten

Entwickelt für Nachhaltigkeit

Karakuri

Metagenomi

NetoAI

Tomofun

SplashMusic

Leonardo.ai

Qualtrics

Finch Computing

Dataminr

Snap Inc.

Sprinklr

Autodesk

Screening Eagle Technologies

NTT PC Communications Inc.

Anthem

Videos

Ressourcen

Optimieren und implementieren Sie Llama-2-Modelle kosteneffizient in Amazon SageMaker JumpStart mit AWS Inferentia und AWS Trainium

Optimieren Sie Llama 2 mit QLoRA und stellen Sie es mit AWS Inferentia2 in Amazon SageMaker bereit

Erhöhen Sie die Stable Diffusion-Leistung und senken Sie die Inferenzkosten mit AWS Inferentia2

Erzielen Sie eine hohe Leistung bei niedrigsten Kosten für generative KI-Inferenz mit AWS Inferentia2 und AWS Trainium in Amazon SageMaker

ByteDance spart mit AWS Inferentia bis zu 60 % der Inferenzkosten ein und reduziert gleichzeitig die Latenz und erhöht den Durchsatz

Wie Amazon Search mit AWS Inferentia die Kosten für ML-Inferenzen um 85 % reduzierte

Verwenden Sie AWS Neuron und beginnen Sie mit AWS Inferentia in TensorFlow, PyTorch oder MXNet

Feature-Roadmap von AWS Neuron

Mit diesen einfachen Tutorials können Sie mit Inferenz in AWS Inferentia beginnen

Erste Schritte mit AWS Inferentia

Beginnen Sie mit der Entwicklung in der Konsole

Inferenzbeispiele/Tutorials (Inf2/Trn1)

Lernen

Ressourcen

Entwickler

Hilfe