- Prodotti›
- Machine learning›
- AWS Inferentia
AWS Inferentia
Ottieni prestazioni elevate al costo più basso in Amazon EC2 per l’inferenza di deep learning e IA generativa
Perché scegliere Inferentia?
I chip AWS Inferentia sono progettati da AWS per fornire prestazioni elevate al costo più basso in Amazon EC2 per le applicazioni di inferenza di deep learning e IA generativa.
Il chip AWS Inferentia di prima generazione alimenta le istanze Inf1 di Amazon Elastic Compute Cloud (Amazon EC2), che offrono un throughput fino a 2,3 volte superiore e un costo per inferenza fino al 70% inferiore rispetto alle istanze Amazon EC2 comparabili. Molti clienti, tra cui Finch AI, Sprinklr, Money Forward e Amazon Alexa, hanno adottato le istanze Inf1 e si sono resi conto dei vantaggi in termini di prestazioni e costi.
Il chip AWS Inferentia2 offre un throughput fino a quattro volte superiore e una latenza fino a dieci volte inferiore rispetto a Inferentia. Le istanze Amazon EC2 Inf2 basate su Inferentia2 sono ottimizzate per implementare modelli sempre più complessi, come modelli linguistici di grandi dimensioni (LLM) e modelli a diffusione latente su larga scala. Le istanze Inf2 sono le prime istanze ottimizzate per l’inferenza in Amazon EC2 e supportano l’inferenza distribuita su larga scala con connettività ad altissima velocità tra i chip. Molti clienti, tra cui Leonardo.ai, Deutsche Telekom e Qualtrics, hanno adottato istanze Inf2 per le proprie applicazioni di deep learning e IA generativa.
L’SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sui chip AWS Inferentia e ad addestrarli sui chip AWS Trainium. Si integra in modo nativo con i framework più diffusi, come PyTorch e TensorFlow, in modo da poter continuare a utilizzare il codice e i flussi di lavoro esistenti ed eseguirli sui chip Inferentia.
Vantaggi di AWS Inferentia
Ogni chip Inferentia di prima generazione dispone di quattro NeuronCore di prima generazione e ogni istanza EC2 Inf1 ha fino a 16 chip Inferentia. Ogni chip Inferentia2 dispone di due NeuronCore di seconda generazione e ogni istanza EC2 Inf2 ha fino a 12 chip Inferentia2. Ogni chip Inferentia2 supporta fino a 190 tera di operazioni in virgola mobile al secondo (TFLOPS) di prestazioni FP16. Inferentia di prima generazione ha 8 GB di memoria DDR4 per chip e dispone anche di una grande quantità di memoria on-chip. Inferentia2 offre 32 GB di HBM per chip, aumentando la memoria totale di quattro volte e la larghezza di banda della memoria di dieci volte rispetto a Inferentia.
L’SDK di AWS Neuron è integrato in modo nativo con framework di machine learning diffusi come PyTorch e TensorFlow. AWS Neuron permette di usare questi framework per l’implementazione ottimale di modelli di Deep Learning sui chip AWS Inferentia, minimizzando al contempo le modifiche al codice e la dipendenza da soluzioni specifiche del fornitore. Neuron consente l'esecuzione su chip Inferentia di applicazioni di inferenza per NLP (elaborazione e comprensione del linguaggio naturale), traduzione, sintesi di testi, generazione di video e immagini, riconoscimento vocale, personalizzazione, rilevamento frodi e molto altro.
Inferentia di prima generazione supporta i tipi di dati FP16, BF16 e INT8. Inferentia2 aggiunge un supporto aggiuntivo per FP32, TF32 e il nuovo tipo di dati FP8 configurabile (cFP8) per offrire agli sviluppatori una maggiore flessibilità, al fine di ottimizzare prestazioni e precisione. AWS Neuron acquisisce i modelli FP32 ad alta precisione e li converte automaticamente in tipi di dati a bassa precisione, ottimizzando la precisione e le prestazioni. Il casting automatico riduce il time to market eliminando la necessità di riqualificare i prodotti di precisione inferiore.
Inferentia2 aggiunge ottimizzazioni hardware per dimensioni dinamiche di input e operatori personalizzati scritti in C++. Supporta inoltre l’arrotondamento stocastico, una modalità di arrotondamento probabilistico che consente di disporre di prestazioni elevate e di una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.
Le istanze Inf2 offrono fino al 50% di prestazioni/watt in più rispetto alle istanze Amazon EC2 comparabili, poiché, insieme ai chip Inferentia2 sottostanti, sono progettate appositamente per eseguire modelli di deep learning su larga scala. Le istanze Inf2 consentono di raggiungere gli obiettivi di sostenibilità quando si effettua l’implementazione di modelli di grandissime dimensioni.
Karakuri
Scopri come Karakuri offre un’IA ad alte prestazioni mantenendo al contempo sotto controllo i costi con AWS Inferentia
Metagenomi
Scopri come Metagenomi ha ridotto i costi di progettazione delle proteine su larga scala fino al 56% grazie ad AWS Inferentia.
NetoAI
Scopri come NetoAI ha raggiunto una latenza di inferenza di 300-600 ms mediante AWS Inferentia2
Tomofun
Scopri come Tomofun ha ridotto i costi di implementazione dell’inferenza BLIP dell’83% migrando verso AWS Inferentia
SplashMusic
Scopri come SplashMusic ha ridotto la latenza di inferenza
fino a 10 volte grazie ad AWS Inferentia
Leonardo.ai
Il nostro team alla Leonardo sfrutta l’IA generativa per consentire ai professionisti e agli appassionati creativi di produrre risorse visive che vantano qualità, velocità e coerenza stilistica senza pari. Utilizzando AWS Inferentia2 siamo in grado di ridurre i nostri costi dell’80%, senza sacrificare le prestazioni, cambiando radicalmente la proposta di valore che possiamo offrire ai clienti, abilitando le nostre funzionalità più avanzate a un prezzo più accessibile. Inoltre, ci permette di alleviare le preoccupazioni relative ai costi e alla disponibilità della capacità per i nostri servizi di IA ausiliari, che diventano sempre più importanti man mano che cresciamo e ci espandiamo. Si tratta di una tecnologia fondamentale che ci consente di superare i limiti di ciò che è possibile realizzare con l’IA generativa, permettendo ai nostri utenti di accedere a una nuova era di creatività e capacità espressiva.
Pete Werner, Head of AI presso Leonardo.ai
Qualtrics
Qualtrics progetta e sviluppa software per la gestione delle esperienze.
In Qualtrics, il nostro obiettivo è definire una tecnologia che colmi le lacune di esperienza per clienti, dipendenti, marchi e prodotti. A tal fine, stiamo sviluppando complessi modelli di deep learning (DL) multi-task e multi-modali per lanciare nuove funzionalità, quali la classificazione dei testi, il tagging delle sequenze, l’analisi del discorso, l’estrazione di frasi chiave, l’estrazione di argomenti, il clustering e la comprensione delle conversazioni end-to-end. Con l’utilizzo di questi modelli più complessi in un numero maggiore di applicazioni, il volume dei dati non strutturati aumenta e abbiamo bisogno di soluzioni ottimizzate per l’inferenza con migliori prestazioni in grado di soddisfare tali richieste, come le istanze Inf2, per offrire esperienze soddisfacenti ai nostri clienti. Siamo entusiasti delle nuove istanze Inf2 perché, oltre a consentirci di raggiungere un throughput più elevato, riducendo drasticamente la latenza, introducono anche funzionalità quali l’inferenza distribuita e il supporto avanzato per la forma dinamica degli input, che ci permettono di scalare la soluzione in base alle esigenze di implementazione, man mano che ci spingiamo verso modelli più grandi e complessi.
Aaron Colak, responsabile del machine learning presso Qualtrics
Finch Computing
Finch Computing è un’azienda di tecnologia del linguaggio naturale che fornisce applicazioni di intelligenza artificiale a clienti collegati a enti pubblici, servizi finanziari e integratori di dati.
Per soddisfare le esigenze dei nostri clienti in termini di elaborazione del linguaggio naturale in tempo reale, sviluppiamo modelli di deep learning all’avanguardia che si adattano a grandi carichi di lavoro di produzione. Dobbiamo fornire transazioni a bassa latenza e raggiungere un throughput elevato per elaborare feed di dati globali. Abbiamo già migrato molti carichi di lavoro di produzione su istanze Inf1 e abbiamo ottenuto una riduzione dei costi dell'80% rispetto alle GPU. Ora stiamo sviluppando modelli più grandi e complessi che consentono di ottenere un significato più profondo e dettagliato dal testo scritto. Molti dei nostri clienti hanno bisogno di accedere a queste informazioni in tempo reale e le prestazioni delle istanze Inf2 ci aiutano a garantire una latenza inferiore e un throughput superiore rispetto alle istanze Inf1. Grazie ai miglioramenti delle prestazioni e alle nuove funzionalità offerte da Inf2, come il supporto per gli input di dimensioni dinamiche, stiamo migliorando l’efficienza in termini di costi e l’esperienza dei clienti in tempo reale, aiutandoli a ricavare nuovi approfondimenti dai loro dati.
Franz Weckesser, Chief Architect presso Finch Computing
Dataminr
Forniamo notifiche relative a molti tipi di eventi in tutto il mondo in svariate lingue e in numerosi formati (immagini, video, audio, sensori di testo e combinazioni di tutti questi tipi) provenienti da centinaia di migliaia di origini. L’ottimizzazione della velocità e dei costi, data la dimensione, è assolutamente fondamentale per la nostra attività. Con AWS Inferentia, abbiamo ridotto la latenza del modello e ottenuto un throughput per dollaro fino a 9 volte superiore. Ciò ci ha permesso di aumentare la precisione dei modelli e di ampliare le capacità della nostra piattaforma, implementando modelli di DL più sofisticati e quintuplicando il volume dei dati elaborati, mantenendo i costi sotto controllo.
Alex Jaimes, Chief Scientist and Senior Vice President of AI presso Dataminr
Snap Inc.
Stiamo integrando il machine learning (ML) in molti aspetti di Snapchat ed esplorare le opportunità di innovazione in questo campo è una delle nostre priorità. Dopo avere sentito parlare di Inferentia, abbiamo iniziato a collaborare con AWS per adottare le istanze Inf1/Inferentia per aiutarci con l’implementazione del ML, anche sotto il profilo di costi e prestazioni. Siamo partiti dai nostri modelli di raccomandazione e progettiamo di adottare le istanze Inf1 per altri modelli in futuro.
Nima Khajehnouri, VP Engineering presso Snap Inc.
Sprinklr
La piattaforma Unified-CXM di Sprinklr, basata sull’IA, consente alle aziende di raccogliere e tradurre in tempo reale i feedback dei clienti provenienti da svariati canali e di trasformarli in approfondimenti da utilizzare per le proprie attività, migliorando così la proattività nella risoluzione dei problemi, lo sviluppo dei prodotti, il marketing dei contenuti, l’assistenza clienti e molto altro. Grazie a Amazon EC2 Inf1, siamo riusciti a migliorare in modo significativo le prestazioni di uno dei nostri modelli di elaborazione del linguaggio naturale (NLP) e di uno dei nostri modelli di visione artificiale. Continueremo a utilizzare Amazon EC2 Inf1 per servire sempre meglio i nostri clienti in tutto il mondo.
Vasant Srinivasan, Senior Vice President of Product Engineering presso Sprinklr
Autodesk
Autodesk sta sviluppando la tecnologia cognitiva del nostro assistente virtuale basato su IA, Autodesk Virtual Agent (AVA), utilizzando Inferentia. AVA risponde a oltre 100.000 domande dei clienti ogni mese utilizzando tecniche di comprensione del linguaggio naturale (NLU) e deep learning per estrarre il contesto, l’intento e il significato delle richieste. Grazie a Inferentia, siamo riusciti a ottenere un throughput 4,9 volte superiore rispetto a G4dn per i nostri modelli di NLU e prevediamo di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia.
Binghui Ouyang, Sr. Data Scientist presso Autodesk
Screening Eagle Technologies
L’uso del ground penetrating radar e l’individuazione dei difetti visivi sono in genere di competenza di rilevatori esperti. Un’architettura basata su microservizi AWS ci permette di elaborare i video acquisiti dai veicoli di ispezione automatizzati e dagli ispettori. Migrando i nostri modelli costruiti internamente dalle istanze tradizionali basate su GPU a Inferentia, siamo riusciti a ridurre i costi del 50%. Inoltre, abbiamo notato un aumento delle prestazioni confrontando i tempi con un’istanza dotata di GPU G4dn. Il nostro team è impaziente di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia.
Jesús Hormigo, Chief of Cloud and AI Officer presso Screening Eagle Technologies
NTT PC Communications Inc.
NTT PC Communications è un fornitore di servizi di rete e soluzioni di comunicazione in Giappone, leader nel settore delle telecomunicazioni nell’introduzione di nuovi prodotti innovativi nel mercato delle tecnologie dell’informazione e della comunicazione.
NTT PC ha sviluppato AnyMotion, un servizio di piattaforma API di analisi del movimento basato su modelli avanzati di ML per la stima della postura. Abbiamo implementato la nostra piattaforma AnyMotion su istanze Amazon EC2 Inf1 utilizzando Amazon ECS per un servizio di orchestrazione dei container completamente gestito. Implementando i propri container AnyMotion su Amazon EC2 Inf1, abbiamo registrato un aumento di 4,5 volte, una latenza di inferenza inferiore del 25% e un costo inferiore del 90% rispetto alle istanze EC2 basate su GPU della generazione attuale. Questi risultati superiori aiuteranno a migliorare la qualità del servizio AnyMotion su larga scala.
Toshiki Yanagisawa, Software Engineer presso NTT PC Communications Inc.
Anthem
Anthem è un’azienda statunitense leader del settore dell’assistenza sanitaria che risponde alle esigenze mediche di oltre 40 milioni di membri in una decina di stati.
Il mercato delle piattaforme sanitarie digitali cresce a un ritmo impressionante. Centralizzare l’intelligence del mercato è un compito impegnativo per via della grande quantità di dati sulle opinioni dei clienti e della loro natura destrutturata. La nostra applicazione automatizza la generazione di analisi concrete a partire dalle opinioni dei clienti tramite modelli di linguaggio naturale di deep learning (trasformatori). Inoltre, è a elevata intensità di calcolo e deve essere distribuita in modo altamente performante. Abbiamo effettuato l’implementazione lineare del nostro carico di lavoro di inferenza di deep learning nelle istanze Inf1 di Amazon EC2, basate sul processore AWS Inferentia. Le nuove istanze Inf1 offrono un throughput doppio alle istanze basate su GPU e consentono di ottimizzare i carichi di lavoro di inferenza.
Numan Laanait and Miro Mihaylov, PhDs, Principal AI/Data Scientists presso Anthem