Scopri
Guida per startup a GenAIOps su AWS parte 3: Verso l'eccellenza nella produzione

Guida per startup a GenAIOps su AWS parte 3: Verso l'eccellenza nella produzione

Com'era questo contenuto?

Startup’s guide to GenAIOps on AWS part 3

Nella Parte 1 e nella Parte 2, abbiamo stabilito le basi di GenAIOps per l'MVP fino alla distribuzione della produzione iniziale. Se hai implementato queste pratiche, probabilmente vedrai dei risultati: crescente adozione, clienti paganti e segnali di adeguamento al mercato dei prodotti che ogni fondatore sogna. Ma il successo comporta nuove problematiche.

La semplicità che serviva alle fasi iniziali è ora soggetta a crescenti pressioni: mantenere l'affidabilità man mano che i volumi di richieste aumentano, garantire prestazioni costanti su diversi carichi di lavoro degli utenti e gestire la complessità che accompagna la crescita. La parte 3 mostra come gestire le richieste di scalabilità senza sacrificare la velocità di innovazione.

Evoluzione della pipeline

Raggiungere l'eccellenza nella produzione non significa solo gestire più traffico. Si tratta di costruire una pipeline che funzioni in modo affidabile, efficiente e prevedibile su larga scala. Ciò significa automatizzare i processi manuali, stabilire sperimentazioni e distribuzioni sistematiche e implementare l'osservabilità per capire non solo cosa sta succedendo, ma anche perché. Come illustrato di seguito, questa evoluzione avviene attraverso cambiamenti operativi in sei fasi della pipeline: dagli elementi essenziali che vi hanno portato da MVP all'adattamento del prodotto al mercato ai sistemi automatizzati che consentono una crescita sostenibile. Esploriamo come evolvere ogni fase.

Data engineering e gestione dei dati: passare a risorse di dati in continua evoluzione

Con il traffico di produzione ora in corso, è il momento di trasformare i set di dati statici in risorse continuamente arricchite, alimentate dall'interazione reale degli utenti.

Estrazione sistematica dei log di produzione: amplia i set di dati di selezione e valutazione dei modelli da centinaia di esempi selezionati a migliaia di casi di test reali. Raccogli esempi di fine-tuning di alto valore, ad esempio conversazioni che richiedono l'intervento umano e query che dimostrano i comportamenti desiderati. Usa Amazon SageMaker Ground Truth Plus per selezionare esempi di produzione per un fine-tuning supervisionato.

Pipeline di dati RAG automatizzata: sostituisci gli aggiornamenti manuali delle origini dati per le knowledge base con flussi di lavoro basati sugli eventi utilizzando Amazon EventBridge. I flussi di lavoro che coinvolgono documenti, immagini, audio e video possono essere automatizzati su larga scala utilizzando Amazon Bedrock Data Automation. Quando le query non riescono a recuperare il contesto pertinente o mostrano punteggi di affidabilità bassi, acquisisci automaticamente gli errori come casi di test di valutazione RAG.

Risorse utili:

Sviluppo e sperimentazione: promuovere l'iterazione sistematica

Man mano che la tua attività cresce, devi passare dalla prototipazione manuale alla sperimentazione sistematica. Ciò comporta l'esecuzione di test paralleli su tutto lo stack di intelligenza artificiale per scoprire continuamente miglioramenti.

Ottimizzazione continua di modelli e prompt: rendi il dimensionamento corretto dei modelli una pratica continua, rivalutando le scelte man mano che emergono nuovi modelli o cambiano i requisiti. Scegli sistemi multimodello che adattino automaticamente la complessità delle attività alla capacità del modello. Estendi questa efficienza ai prompt tramite il routing dinamico con modelli specializzati basati sulla classificazione delle query, sul contesto utente e sulla cronologia delle prestazioni. Tieni traccia dei parametri prestazionali multidimensionali (precisione, latenza e costi) per decisioni basate sui dati sul dimensionamento corretto dei modelli o sulla modifica delle varianti dei prompt.

Flussi di lavoro per il perfezionamento del contesto: stabilisci processi di ottimizzazione ripetibili per il recupero di conoscenze esterne e la personalizzazione dei modelli. Per l'ottimizzazione RAG, implementa la sperimentazione strutturata testando strategie di suddivisione in blocchi avanzate e approcci di recupero (ricerca ibrida, filtro di metadati, riformulazione delle query, riposizionamento), quindi iterando in base alla precisione e alla latenza del recupero. Ottimizza le dimensioni di embedding testando, ad esempio, le dimensioni 768 o 512 rispetto a 1536 per ridurre i costi di archiviazione e la latenza di recupero mantenendo al contempo la precisione. Per la personalizzazione dei modelli, utilizza Amazon Bedrock per semplificare i flussi di lavoro: utilizza un pre-addestramento continuativo per adattare i modelli al vocabolario specifico del dominio o un fine-tuning supervisionato per migliorare le prestazioni specifiche delle attività. Amazon SageMaker AI offre un maggiore controllo sull'addestramento man mano che le esigenze crescono.

Stabilisci cicli di ottimizzazione regolari per far evolvere i sistemi contestuali con la tua applicazione, dalle revisioni mensili delle prestazioni RAG alle valutazioni trimestrali della personalizzazione dei modelli.

Orchestrazione degli agenti per flussi di lavoro complessi: man mano che gli agenti gestiscono diversi carichi di lavoro di produzione, le architetture a singolo agente raggiungono i limiti di complessità. Gli agenti che si occupano sia di richieste di fatturazione che di risoluzione dei problemi tecnici hanno difficoltà a far fronte a contesti e set di strumenti contrastanti. Monitora i tassi di completamento in base alla complessità delle attività: se il tuo agente riesce nell'85% delle attività che richiedono 2-3 chiamate agli strumenti, ma scende al 45% con più di 5 chiamate, hai trovato la soglia di decomposizione. Implementa sistemi multiagente specializzati in cui un agente di routing delega le domande di fatturazione agli agenti di pagamento e i problemi tecnici vengono inoltrati agli agenti dell'assistenza.

Amazon Bedrock AgentCore risolve le sfide della scalabilità della produzione fornendo isolamento delle sessioni per utenti simultanei, runtime prolungati per ragionamenti complessi e osservabilità unificata tra i tuoi agenti. Per proteggerti dai costi esorbitanti, implementa meccanismi di timeout per ridurre la probabilità di bloccare gli errori nei flussi di lavoro e nelle esecuzioni degli agenti.

Sperimentazione sistematica senza caos nella produzione: l'esecuzione di più esperimenti contemporaneamente richiede l'isolamento dei test e la protezione del traffico di produzione. Per controllare l'implementazione dei componenti IA, implementa flag di funzionalità tramite AWS AppConfig, dove puoi testare nuove strategie di recupero dei RAG o valutare simultaneamente le varianti dei prompt tra i segmenti di utenti.

Per garantire risultati affidabili degli esperimenti, iniziate creando ambienti di test isolati che rispecchino i dati di produzione e i modelli di traffico. Quindi stabilisci metriche standardizzate relative sia agli aspetti tecnici come precisione e latenza, sia alle metriche del comportamento degli utenti come la soddisfazione e il coinvolgimento. Quando confronti gli esperimenti, adotta un approccio olistico alla valutazione. Ad esempio, quando si confrontano due strategie di recupero RAG, si consideri che un piccolo miglioramento della precisione con una maggiore latenza potrebbe comportare una maggiore soddisfazione complessiva degli utenti rispetto a un maggiore guadagno di precisione con una maggiore latenza. Ciò garantisce che i risultati sperimentali riflettano l'impatto sul mondo reale anziché solo parametri isolati.

Risorse utili:

Test e valutazione: creazione di cicli di qualità continui

I test manuali possono diventare rapidamente ingestibili, soprattutto quando si spedisce più volte alla settimana. Il passaggio da una fase preliminare al rilascio a un ciclo di feedback continuo accelererà l'iterazione e impedirà che distribuzioni errate danneggino la fiducia dei clienti.

Pipeline di valutazione automatizzata: trasforma gli approcci di valutazione della Parte 2 in suite di test automatizzate integrate con la tua pipeline CI/CD. Ogni distribuzione del codice attiva automaticamente le valutazioni end-to-end e dei componenti, che misurano l'accuratezza, il completamento delle attività e la qualità delle risposte. Rileva i problemi derivanti dagli aggiornamenti della knowledge base o dagli aggiornamenti dei dati al di fuori dei cicli di distribuzione programmando test di regressione notturni. Non dimenticare di impostare soglie di qualità per bloccare le implementazioni che aumentano la latenza o riducono la precisione. Inoltre, il reinserimento degli errori nei test nella pipeline di dati arricchirà la copertura della valutazione.

Strategie di valutazione dell'IA responsabile: la correttezza funzionale non è sufficiente; i sistemi di produzione devono essere sicuri e affidabili. Estendi i test automatizzati per includere il rilevamento delle allucinazioni con verifiche fondate sui fatti, l'iniezione di prompt tramite casi di test contraddittori e la valutazione dei contenuti dannosi. Altre strategie per supportare le prestazioni e la sicurezza su larga scala includono l'esecuzione regolare di esercizi red teaming per identificare i comportamenti non sicuri e il controllo a campione degli output di produzione per valutare i parametri di IA responsabile.

Risorse utili:

Distribuzione e servizio: scalabilità con resilienza

Man mano che il traffico di produzione aumenta, la distribuzione dovrebbe passare dalla semplice messa online delle applicazioni all'implementazione di strategie che mantengano affidabilità e prestazioni.

Strategie di distribuzione scalabili: inizia definendo i requisiti prestazionali, tra cui throughput di destinazione, percentili di latenza e soglie di degradazione. Successivamente, esegui test di carico simulando traffico sostenuto, modelli di espansione e flussi di lavoro in più fasi. Ciò identificherà le lacune prestazionali, informerà le decisioni architettoniche e convaliderà i requisiti dell'infrastruttura.

Ottimizza l'efficienza dell'inferenza attraverso modelli intelligenti di caching e serving. L'utilizzo del caching dei prompt di Bedrock ti aiuterà a riutilizzare blocchi di contesto di grandi dimensioni, riducendo a sua volta latenza e costi. Anche l'abbinamento dei modelli di inferenza ai requisiti, ad esempio utilizzando l'inferenza in tempo reale per applicazioni interattive o l'inferenza in batch per l'analisi offline, ridurrà significativamente i costi.

Per progettare la scalabilità in tutto il tuo stack, l'inferenza interregionale di Amazon Bedrock indirizza automaticamente le richieste tra le regioni AWS ottimali per aumentare il throughput e la disponibilità. Nel frattempo, il dimensionamento automatico degli endpoint di SageMaker AI regola dinamicamente la capacità, Runtime AgentCore Bedrock offre una distribuzione sicura degli agenti su larga scala e OpenSearch serverless scala automaticamente la capacità di calcolo per i database vettoriali.

I modelli di distribuzione possono anche ridurre il rischio nelle versioni, ad esempio le distribuzioni canary per esporre il 5-10% del traffico a nuovi modelli monitorando i parametri prima dell'implementazione completa e le distribuzioni blu-verde che consentono il rollback istantaneo dalle regressioni.

Strategie di servizio resilienti: oltre alla scalabilità, i sistemi di produzione devono gestire limiti di quota, guasti transitori e carichi imprevisti senza compromettere l'esperienza utente. Rivedi le quote di Amazon Bedrock in modo proattivo, richiedendo aumenti prima di raggiungere i limiti. Implementa la limitazione delle tariffe utilizzando Gateway Amazon API per controllare le richieste in arrivo e garantire un utilizzo corretto. Usa Amazon SQS tra l'applicazione e i modelli per assorbire la variabilità della domanda e prevenire il rifiuto della richiesta.

Configurando le gerarchie a cascata dei modelli, dal modello principale al modello di backup fino alle risposte memorizzate nella cache alle risposte correttamente degradate, puoi garantire che gli utenti ricevano sempre una risposta anche quando i percorsi di distribuzione ottimali falliscono. Inoltre, implementa gli interruttori automatici per bloccare le richieste alle dipendenze non funzionanti.

Risorse utili:

Osservabilità e perfezionamento: potenziare il miglioramento continuo

Fai dell'osservabilità il tuo principale vantaggio competitivo con un sistema a circuito chiuso in cui gli approfondimenti attivano automaticamente i perfezionamenti, creando un'applicazione che si migliora automaticamente.

Osservabilità unificata tra i parametri tecnici e aziendali: l'analisi della correlazione è fondamentale per comprendere il comportamento del sistema nel suo insieme. A tal fine, crea pannelli di controllo unificati combinando parametri tecnici e aziendali, non solo "Modello A contro Modello B" ma piuttosto "Modello A a 0,02 USD/richiesta con una precisione del 92% rispetto al Modello B a 0,08 USD/richiesta con una precisione del 94%", quindi monitora l'impatto di ciascuna di esse sulla fidelizzazione degli utenti per 30 giorni. Progetta visualizzazioni specifiche per ruolo partendo dalla telemetria condivisa: l'ingegneria rileva gli avvisi sui tassi di errore e le tendenze di latenza; i team di prodotto vedono i tassi di completamento e i modelli di interazione degli utenti; i dirigenti vedono le correlazioni tra costo per interazione e ROI. Quindi, quando il bot del servizio clienti mostra domande più lunghe del 40% durante il lancio delle funzionalità o quando gli schemi stagionali modificano la struttura dei costi del 60%, l'analisi della correlazione tra parametri rivela la causa principale.

Cicli di miglioramento a circuito chiuso: la vera eccellenza della produzione deriva dalla creazione di sistemi a circuito chiuso in cui l'osservabilità innesca il perfezionamento dell'intera pipeline GenAIOps, come mostrato nella figura seguente.

Ad esempio, l'osservabilità del bot del servizio clienti può innescare i seguenti miglioramenti:

Ingegneria e gestione dei dati: quando il tasso di risposta non riuscita aumenta del 15% per le domande di lancio del prodotto, EventBridge attiva la sincronizzazione della knowledge base per acquisire la documentazione più recente dai sistemi di origine.
Sviluppo e sperimentazione: se i tassi di risoluzione dei bot diminuiscono del 20% per le domande di fatturazione, il sistema mette in coda i test A/B per le varianti di prompt specializzate nella fatturazione.
Test e valutazione: quando gli errori nelle conversazioni relative al monitoraggio degli ordini aumentano del 25%, i casi di test vengono generati automaticamente dalle interazioni non riuscite e aggiunti alle suite di regressione.
Distribuzione e gestione: quando l'analisi delle tracce mostra che l'8% dei flussi di lavoro degli agenti scade a 30 secondi ma viene completato correttamente dopo 45 secondi, le configurazioni di timeout vengono modificate.
Governance e manutenzione: quando i log di distribuzione mostrano che il 40% delle release fallisce a causa della mancanza di autorizzazioni IAM o dei prerequisiti dell'infrastruttura, i controlli di convalida preliminari vengono aggiunti alla pipeline di distribuzione, rilevando i problemi di configurazione prima che blocchino i rilasci.

Risorse utili:

Governance e manutenzione: consentire un'innovazione sicura

Il tuo framework di governance dovrebbe sembrare un consulente di fiducia che accelera l'assunzione intelligente dei rischi bloccando al contempo errori costosi. Trasforma queste barriere della Parte 2 in un vantaggio competitivo attraverso pratiche di IA responsabile che rafforzano la fiducia dei clienti.

Flussi di lavoro di governance automatizzati: sostituisci le revisioni manuali con un'automazione intelligente, utilizzando AWS Step Functions per creare flussi di lavoro di approvazione in cui gli aggiornamenti a basso rischio, come i perfezionamenti dei modelli di prompt, vengono distribuiti automaticamente e gli aggiornamenti ad alto rischio, come le modifiche ai modelli, attivano revisioni umane. Puoi anche automatizzare la documentazione di conformità, dall'acquisizione delle catene di approvazione al mantenimento degli audit trail. Quando le distribuzioni violano le politiche, i flussi di lavoro bloccano automaticamente il rilascio e vengono inoltrati alle parti interessate.

Infrastruttura come codice e lineage tracking: codifica l'intera infrastruttura AI, acquisendo le conoscenze sulla distribuzione in codice controllato dalla versione. Tieni traccia della derivazione dei modelli utilizzando Amazon SageMaker Model Registry e del data lineage utilizzando le funzionalità del catalogo Amazon SageMaker. La documentazione del flusso di dati dai documenti di origine attraverso le fasi di elaborazione fino agli output del modello crea anche audit trail per supportare il debug e la conformità, rendendo tracciabile tutto, dai dati di addestramento ai risultati di inferenza.

Visibilità operativa e responsabilità: crea pannelli di controllo specifici per i ruoli in Amazon QuickSight che evidenziano i parametri di governance. Stabilisci una chiara titolarità tra i team, con obiettivi prestazionali proprietari del prodotto, affidabilità responsabile della progettazione, conformità alla sicurezza e coordinamento della governance tra i team.

Risorse utili:

Conclusioni

Raggiungere l'eccellenza nella produzione non è uno sforzo una tantum, è un processo continuo di creazione di una pipeline che apprende da ogni distribuzione, errore e interazione con l'utente. Questi miglioramenti sistematici si aggravano nel tempo, creando vantaggi competitivi che vanno ben oltre ciò che è possibile semplicemente velocizzare la spedizione delle funzionalità.

Per fare il passo successivo, dai la priorità alla fase della pipeline più impegnativa, che si tratti di esperimenti che richiedono troppo tempo per la convalida, distribuzioni difficili o costi imprevedibili. Dopo aver automatizzato quell'area, passa a quella successiva e continua. In definitiva, ciò che distingue le principali startup di intelligenza artificiale non è l'accesso a modelli migliori, è una solida pipeline GenAIOps che migliora continuamente l'esperienza utente.

Nima Seifi

Nima Seifi è Senior Solutions Architect presso AWS, nella sede della California del sud, ed è specializzato in SaaS e GenaiOps. È consulente tecnico per le startup che sviluppano su AWS. Prima di entrare in AWS, ha lavorato come architetto DevOps nel settore dell'e-commerce per più di 5 anni, dopo un decennio di attività di ricerca e sviluppo nelle tecnologie Internet mobili. Nima ha effettuato più di 20 pubblicazioni su importanti riviste e conferenze tecniche, e detiene 7 brevetti statunitensi. Al di fuori del lavoro, ama leggere, guardare documentari e fare passeggiate sulla spiaggia.

Pat Santora

Pat Santora è GenAI Labs Cloud Architect and Technologist con oltre 25 anni di esperienza nell'implementazione di soluzioni sul cloud per aziende e startup. Ha lanciato con successo numerosi prodotti sin dalla fase iniziale, ha guidato riprogettazioni analitiche e gestito team da remoto con una filosofia incentrata sulla trasparenza e sulla fiducia. La sua esperienza tecnica spazia dalla pianificazione strategica, alla gestione dei sistemi e al redesign architettonico, unitamente a interessi in GenAI, Analisi e Big Data.

Clement Perrot

Clement Perrot aiuta le startup di alto livello ad accelerare le loro iniziative di IA fornendo indicazioni strategiche sulla selezione dei modelli, sull'implementazione dell'IA responsabile e sulle operazioni di machine learning ottimizzate. Imprenditore seriale e vincitore di Inc 30 Under 30, vanta una profonda esperienza nella creazione e nella scalabilità delle aziende IA, avendo fondato ed essendo uscito con successo da diverse joint-venture nel campo della tecnologia di consumo e dell'IA per le aziende.

Com'era questo contenuto?