- Produkte›
- Machine Learning›
- AWS Inferentia
AWS Inferentia
Erzielen Sie eine hohe Leistung bei niedrigsten Kosten in Amazon EC2 für Deep Learning und Inferenz für generative KI
Warum Inferentia?
AWS-Inferentia-Chips wurden von AWS entwickelt, um Ihnen in Amazon EC2 eine hohe Leistung zu den niedrigsten Kosten für Ihre Inferenzanwendungen im Bereich Deep Learning (DL) und generative KI zu bieten.
Der AWS-Inferentia-Chip der ersten Generation unterstützt Inf1-Instances von Amazon Elastic Compute Cloud (Amazon EC2), die einen bis zu 2,3-mal höheren Durchsatz und bis zu 70 % geringere Kosten pro Inferenz als vergleichbare Amazon-EC2-Instances bieten. Viele Kunden, darunter Finch AI, Sprinklr, Money Forward und Amazon Alexa, haben Inf1-Instances eingeführt und die Leistungs- und Kostenvorteile erkannt.
Der AWS-Inferentia2-Chip bietet einen bis zu 4-mal höheren Durchsatz und eine bis zu 10-mal niedrigere Latenzzeit im Vergleich zu Inferentia. Inferentia2-basierte Amazon-EC2-Inf2-Instances sind für die skalierbare Bereitstellung zunehmend komplexer Modelle wie große Sprachmodelle (LLM) und latenter Diffusionsmodelle optimiert. Inf2-Instances sind die ersten für Inferenzen optimierten Instances in Amazon EC2, die skalierbare verteilte Inferenzen mit Ultra-Hochgeschwindigkeitskonnektivität zwischen Chips unterstützen. Viele Kunden, darunter Leonardo.ai, Deutsche Telekom und Qualtrics, haben Inf2-Instances für ihre Anwendungen für DL und generative KI eingeführt.
AWS Neuron SDK hilft Entwicklern, Modelle auf den AWS-Inferentia-Chips bereitzustellen (und sie auf AWS-Trainium-Chips zu trainieren). AWS Neuron SDK lässt sich nativ in gängige Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie Ihren bestehenden Code und Workflows weiter nutzen und auf Inferentia-Chips ausführen können.
Vorteile von AWS Inferentia
Jeder Inferentia-Chip der ersten Generation hat 4 NeuronCores der ersten Generation, und jede EC2-Inf1-Instance hat bis zu 16 Inferentia-Chips. Jeder Inferentia2-Chip hat 2 NeuronCores der zweiten Generation, und jede EC2-Inf2-Instance hat bis zu 12 Inferentia2-Chips. Jeder Inferentia2-Chip unterstützt bis zu 190 Tera-Gleitkommaoperationen pro Sekunde (TFLOPS) an FP16-Leistung. Die erste Generation von Inferentia verfügt über 8 GB DDR4-Speicher pro Chip und bietet außerdem eine große Menge an On-Chip-Speicher. Inferentia2 bietet 32 GB HBM pro Chip, was den Gesamtspeicher um das Vierfache und die Speicherbandbreite um das Zehnfache gegenüber Inferentia erhöht.
AWS Neuron SDK lässt sich nativ in beliebte ML-Frameworks wie PyTorch und TensorFlow integrieren. Mit AWS Neuron können Sie diese Frameworks nutzen, um DL-Modelle auf beiden AWS-Inferentia-Chips bereitzustellen, und Neuron ist so konzipiert, dass Codeänderungen und die Bindung an anbieterspezifische Lösungen minimiert werden. Neuron hilft Ihnen, Ihre Inferenzanwendungen für natürliche Sprachverarbeitung (NLP)/Verständnis, Sprachübersetzung, Textzusammenfassung, Video- und Bilderzeugung, Spracherkennung, Personalisierung, Betrugserkennung und mehr auf Inferentia-Chips auszuführen.
Inferentia der ersten Generation unterstützt die Datentypen FP16, BF16 und INT8. Inferentia2 bietet zusätzliche Unterstützung für FP32, TF32 und den neuen konfigurierbaren FP8 (cFP8) Datentyp, um Entwicklern mehr Flexibilität zur Optimierung von Leistung und Genauigkeit zu bieten. AWS Neuron übernimmt hochpräzise FP32-Modelle und wandelt sie automatisch in Datentypen mit geringerer Genauigkeit um, wobei Genauigkeit und Leistung optimiert werden. Autocasting verkürzt die Zeit bis zur Markteinführung, da kein erneutes Training mit geringerer Präzision erforderlich ist.
Inferentia2 bietet Hardware-Optimierungen für dynamische Eingabegrößen und benutzerdefinierte, in C++ geschriebene Operatoren. Es unterstützt auch das stochastische Runden, eine Art des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.
Inf2-Instances bieten eine bis zu 50 % bessere Leistung pro Watt im Vergleich zu vergleichbaren Amazon-EC2-Instances, da sie und die zugrundeliegenden Inferentia2-Chips speziell für die Ausführung von DL-Modellen in großem Maßstab entwickelt wurden. Inf2-Instances helfen Ihnen, Ihre Nachhaltigkeitsziele bei der Bereitstellung extrem großer Modelle zu erreichen.
Karakuri
Erfahren Sie, wie Karakuri mithilfe von AWS Inferentia leistungsstarke KI bereitstellt und gleichzeitig die Kosten unter Kontrolle hält
Metagenomi
Erfahren Sie, wie Metagenomi mithilfe von AWS Inferentia die Kosten für groß angelegte Proteindesigns um bis zu 56 % senkte
NetoAI
Erfahren Sie, wie netOAI mit AWS Inferentia2 eine Inferenzlatenz von 300–600 ms erreicht hat
Tomofun
Erfahren Sie, wie Tomofun durch die Migration zu AWS Inferentia die Bereitstellungskosten für BLIP-Inferenzen um 83 % senkte
SplashMusic
Erfahren Sie, wie SplashMusic mit AWS Inferentia die Inferenzlatenz
um das bis zu 10-fache reduziert hat
Leonardo.ai
Unser Team bei Leonardo nutzt generative KI, um Kreativprofis und -enthusiasten in die Lage zu versetzen, visuelle Inhalte mit unübertroffener Qualität, Geschwindigkeit und Stilkonsistenz zu produzieren. Mit AWS Inferentia2 sind wir in der Lage, unsere Kosten ohne Leistungseinbußen um 80 % zu senken, was das Wertversprechen, das wir unseren Kunden bieten können, grundlegend verändert, indem wir unsere fortschrittlichsten Features zu einem günstigeren Preis anbieten. Außerdem werden dadurch Bedenken hinsichtlich der Kosten und der Verfügbarkeit von Kapazitäten für unsere zusätzlichen KI-Dienste ausgeräumt, die mit unserem Wachstum und unserer Größe immer wichtiger werden. Sie ist eine Schlüsseltechnologie für uns, mit der wir die Grenzen dessen, was mit generativer KI möglich ist, weiter ausreizen und eine neue Ära der Kreativität und Ausdruckskraft für unsere Nutzer ermöglichen.
Pete Werner, Head of AI, Leonardo.ai
Qualtrics
Qualtrics entwirft und entwickelt Software für das Erfahrungsmanagement.
Bei Qualtrics konzentrieren wir uns auf die Entwicklung von Technologien, die Erfahrungslücken für Kunden, Mitarbeiter, Marken und Produkte schließen. Um dies zu erreichen, entwickeln wir komplexe Multi-Task- und multimodale DL-Modelle, um neue Features einzuführen, wie z. B. Textklassifizierung, Sequenz-Tagging, Diskursanalyse, Extraktion von Schlüsselsätzen, Themenextraktion, Clustering und durchgängiges Gesprächsverständnis. Da wir diese komplexeren Modelle in immer mehr Anwendungen einsetzen, wächst das Volumen an unstrukturierten Daten, und wir benötigen leistungsfähigere, inferenzoptimierte Lösungen, die diesen Anforderungen gerecht werden, wie z. B. Inf2-Instances, um unseren Kunden die besten Erlebnisse zu bieten. Wir freuen uns über die neuen Inf2-Instances, weil wir damit nicht nur einen höheren Durchsatz erzielen und gleichzeitig die Latenzzeit drastisch reduzieren können, sondern auch Features wie verteilte Inferenz und verbesserte Unterstützung für dynamische Eingabeformen einführen, die uns bei der Skalierung helfen werden, um den Bereitstellungsanforderungen gerecht zu werden, wenn wir auf größere, komplexere große Modelle zusteuern.
Aaron Colak, Head of Core Machine Learning, Qualtrics
Finch Computing
Finch Computing ist ein Technologieunternehmen für natürliche Sprache, das Anwendungen für künstliche Intelligenz für Behörden, Finanzdienstleistungen und Datenintegratoren anbietet.
Um den Bedürfnissen unserer Kunden nach Echtzeit-NLP gerecht zu werden, entwickeln wir hochmoderne DL-Modelle, die sich für große Produktions-Workloads skalieren lassen. Wir müssen Transaktionen mit niedrigen Latenzzeiten anbieten und hohe Durchsätze erreichen, um globale Datenströme zu verarbeiten. Wir haben bereits viele Produktions-Workloads auf Inf1-Instances migriert und dabei eine Kostenreduzierung von 80 % gegenüber GPUs erzielt. Jetzt entwickeln wir größere, komplexere Modelle, die eine tiefere, aufschlussreichere Bedeutung von geschriebenen Texten ermöglichen. Viele unserer Kunden benötigen den Zugang zu diesen Erkenntnissen in Echtzeit, und die Leistung der Inf2-Instances wird uns helfen, niedrigere Latenzzeiten und einen höheren Durchsatz als bei Inf1-Instances zu erzielen. Mit den Leistungsverbesserungen von Inf2 und den neuen Inf2-Features, wie der Unterstützung dynamischer Eingabegrößen, verbessern wir unsere Kosteneffizienz, erhöhen das Echtzeit-Kundenerlebnis und helfen unseren Kunden, neue Erkenntnisse aus ihren Daten zu gewinnen.
Franz Weckesser, Chief Architect, Finch Computing
Dataminr
Wir informieren über viele Arten von Ereignissen auf der ganzen Welt in vielen Sprachen und in verschiedenen Formaten (Bilder, Video, Audio, Textsensoren, Kombinationen all dieser Typen) aus Hunderttausenden von Quellen. Angesichts dieser Größenordnung ist die Optimierung im Hinblick auf Geschwindigkeit und Kosten für unser Geschäft von entscheidender Bedeutung. Mit AWS Inferentia haben wir die Modelllatenz gesenkt und einen bis zu 9-mal besseren Durchsatz pro Dollar erzielt. Dies hat es uns ermöglicht, die Modellgenauigkeit zu erhöhen und die Fähigkeiten unserer Plattform zu erweitern, indem wir anspruchsvollere DL-Modelle einsetzen und 5-mal mehr Datenvolumen verarbeiten konnten, während wir gleichzeitig unsere Kosten unter Kontrolle hielten.
Alex Jaimes, Chief Scientist und Senior Vice President of AI, Dataminr
Snap Inc.
Wir integrieren ML in viele Aspekte von Snapchat und die Erforschung von Innovationen in diesem Bereich hat für uns oberste Priorität. Als wir von Inferentia hörten, begannen wir, mit AWS zusammenzuarbeiten, um Inf1-/Inferentia-Instances einzuführen, die uns bei der Bereitstellung von ML helfen sollten, auch im Hinblick auf Leistung und Kosten. Wir haben mit unseren Empfehlungsmodellen begonnen und freuen uns darauf, in Zukunft weitere Modelle mit den Inf1-Instances einzuführen.
Nima Khajehnouri, VP Engineering, Snap Inc.
Sprinklr
Die KI-gesteuerte Unified Customer Experience Management (Unified-CXM, einheitliches Kundenerlebnis-Management)-Plattform von Sprinklr ermöglicht es Unternehmen, Kundenfeedback in Echtzeit über mehrere Kanäle hinweg zu sammeln und in verwertbare Erkenntnisse umzuwandeln – mit dem Ergebnis einer proaktiven Problemlösung, einer verbesserten Produktentwicklung, eines verbesserten Content-Marketings, eines besseren Kundenservices und mehr. Mit Amazon EC2 Inf1 könnten wir die Leistung einer unserer NLP-Modelle wesentlich steigern und auch die Leistung eines unserer Computer-Vision-Modelle verbessern. Wir freuen uns darauf, weiterhin Amazon EC2 Inf1 zu verwenden, um unsere globalen Kunden besser unterstützen zu können.
Vasant Srinivasan, Senior Vice President of Product Engineering bei Sprinklr
Autodesk
Autodesk treibt die kognitive Technologie unseres KI-gestützten virtuellen Assistenten, Autodesk Virtual Agent (AVA), mit Hilfe von Inferentia voran. AVA beantwortet mehr als 100 000 Kundenfragen pro Monat durch Anwendung von natürlichem Sprachverständnis (NLU) und DL-Techniken, um den Kontext, die Absicht und die Bedeutung hinter den Anfragen zu extrahieren. Durch die Pilotierung von Inferentia sind wir in der Lage, einen 4,9-fach höheren Durchsatz als G4dn für unsere NLU-Modelle zu erzielen, und wir freuen uns darauf, mehr Workloads auf den Inferentia-basierten Inf1-Instances auszuführen.
Binghui Ouyang, Sr. Data Scientist, Autodesk
Screening Eagle Technologies
Der Einsatz von Bodenradar und die Erkennung visueller Mängel ist normalerweise die Domain von Vermessungsfachleuten. Eine auf Microservices basierende AWS-Architektur ermöglicht uns die Verarbeitung von Videos, die von automatischen Inspektionsfahrzeugen und Inspektoren aufgenommen wurden. Die Migration unserer hausintern erstellten Modelle von herkömmlichen GPU-basierten Instances zu Inferentia ermöglichte uns eine Kostenreduzierung um 50 %. Zudem konnten wir Leistungssteigerungen beim Vergleich der Zeiten mit einer G4dn-GPU-Instance feststellen. Unser Team freut sich darauf, mehr Workloads auf den Inferentia-basierten Inf1-Instances auszuführen.
Jesús Hormigo, Chief of Cloud and AI Officer, Screening Eagle Technologies
NTT PC Communications Inc.
NTT PC Communications, ein Anbieter von Netzwerk-Services und Kommunikationslösungen in Japan, ist ein führendes Telekommunikationsunternehmen bei der Einführung neuer innovativer Produkte auf dem Informations- und Kommunikationstechnologie-Markt.
NTT PC hat AnyMotion entwickelt, einen API-Plattformservice zur Bewegungsanalyse, der auf fortschrittlichen ML-Modellen zur Haltungsschätzung basiert. Wir haben unsere AnyMotion-Plattform auf Amazon-EC2-Inf1-Instances mithilfe von Amazon ECS für einen vollständig verwalteten Container-Orchestrierungsservice bereitgestellt. Durch die Bereitstellung unserer AnyMotion-Container auf Amazon EC2 Inf1 konnten wir im Vergleich zu GPU-basierten EC2-Instances der aktuellen Generation eine 4,5-fach höhere Durchsatzrate, eine um 25 % niedrigere Inferenzlatenz und 90 % niedrigere Kosten erzielen. Diese hervorragenden Ergebnisse werden dazu beitragen, die Qualität der AnyMotion-Services im großen Maßstab zu verbessern.
Toshiki Yanagisawa, Software Engineer, NTT PC Communications Inc.
Anthem
Anthem ist eines der führenden Unternehmen der Nation im Bereich der Gesundheitsfürsorge, das die Bedürfnisse von über 40 Millionen Mitgliedern in Dutzenden von Bundesstaaten erfüllt.
Der Markt der digitalen Gesundheitsplattformen wächst mit einer bemerkenswerten Geschwindigkeit. Das Sammeln von Informationen über diesen Markt ist aufgrund der riesigen Menge an Kundenmeinungsdaten und seiner unstrukturierten Natur eine schwierige Aufgabe. Unsere Anwendung automatisiert die Generierung von handlungsrelevanten Erkenntnissen aus Kundenmeinungen über natürlichsprachliche DL-Modelle (Transformers). Unsere Anwendung ist rechenintensiv und muss hochleistungsfähig bereitgestellt werden. Wir stellten unseren DL-Inferencing-Workload nahtlos auf Amazon-EC2-Inf1-Instances bereit, die mit dem AWS-Inferentia-Prozessor betrieben werden. Die neuen Inf1-Instances bieten einen 2-fach höheren Durchsatz für GPU-basierte Instances und ermöglichten es uns, unsere Inferenz-Workloads zu rationalisieren.
Numan Laanait and Miro Mihaylov, PhDs, Principal AI/Data Scientists, Anthem