Amazon SageMaker AI ora supporta la decodifica speculativa EAGLE
Amazon SageMaker AI ora supporta la decodifica speculativa EAGLE (Extrapolation Algorithm for Greater Language-Model Efficiency) per migliorare il throughput di inferenza dei modelli linguistici di grandi dimensioni fino a 2,5 volte. Questa funzionalità consente ai modelli di prevedere e convalidare più token contemporaneamente anziché uno alla volta, migliorando i tempi di risposta per le applicazioni IA.
Quando i clienti implementano le applicazioni IA per la produzione, hanno bisogno di funzionalità per fornire modelli a bassa latenza e throughput elevato in modo da offrire esperienze utente reattive. I data scientist e gli ingegneri ML non dispongono di metodi efficienti per accelerare la generazione di token senza sacrificare la qualità dell'output o richiedere una complessa ridefinizione dell'architettura del modello, il che rende difficile soddisfare i requisiti di prestazioni in condizioni di traffico reali. I team dedicano molto tempo all'ottimizzazione dell'infrastruttura anziché concentrarsi sul miglioramento delle applicazioni IA. Grazie alla decodifica speculativa EAGLE, SageMaker AI consente ai clienti di accelerare la velocità effettiva di inferenza permettendo ai modelli di generare e verificare più token simultaneamente anziché uno alla volta, mantenendo invariata la qualità dell'output e incrementando notevolmente il throughput. SageMaker AI seleziona automaticamente la versione più appropriata tra EAGLE 2 e EAGLE 3 in base all'architettura del modello e offre processi di ottimizzazione integrati che utilizzano set di dati selezionati o i dati specifici dell'applicazione per addestrare moduli di predizione specializzati. È quindi possibile implementare i modelli ottimizzati tramite il flusso di lavoro dell'inferenza SageMaker AI già in uso senza apportare modifiche all'infrastruttura, permettendo di offrire applicazioni IA più rapide con prestazioni prevedibili.
La decodifica speculativa EAGLE è disponibile nelle seguenti regioni AWS: Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Stati Uniti orientali (Ohio), Asia Pacifico (Tokyo), Europa (Irlanda), Asia Pacifico (Singapore) ed Europa (Francoforte)
Per saperne di più sulla decodifica speculativa EAGLE, consulta il blog di AWS News qui e la documentazione di SageMaker AI qui.