Apprendre
Guide des GenAIOps pour les start-ups sur AWS, partie 3 : Vers l’excellence en production

Guide des GenAIOps pour les start-ups sur AWS, partie 3 : Vers l’excellence en production

Comment a été ce contenu ?

Startup’s guide to GenAIOps on AWS part 3

Dans les parties 1 et 2, nous avons établi les bases des GenAIOps pour le déploiement initial du MVP en production. Si vous avez mis en œuvre ces pratiques, vous observez probablement des résultats : adoption croissante, clients payants et signaux d’adéquation entre le produit et le marché dont rêve tout fondateur. Mais le succès s’accompagne de nouveaux défis.

La simplicité qui vous a servi à vos débuts est désormais confrontée à des pressions liées à la mise à l’échelle : maintien de la fiabilité face à l’augmentation des volumes de demandes, garantie de performances constantes sur les différentes charges de travail des utilisateurs et gestion de la complexité qui accompagne la croissance. La partie 3 vous montre comment gérer les demandes de mise à l’échelle sans sacrifier la rapidité de l’innovation.

Évolution de votre pipeline

Pour atteindre l’excellence en production, il ne suffit pas de gérer davantage de trafic. Il s’agit de construire un pipeline qui fonctionne de manière fiable, efficace et prévisible à l’échelle. Cela implique l’automatisation des processus manuels, la mise en place d’expérimentations et de déploiements systématiques, et la mise en œuvre de l’observabilité pour comprendre non seulement ce qui se passe, mais aussi pourquoi. Comme illustré ci-dessous, cette évolution s’effectue par le biais de changements opérationnels répartis en six étapes de pipeline, des éléments essentiels qui vous ont permis de passer du MVP à l’adéquation du produit au marché, puis à des systèmes automatisés qui permettent une croissance durable. Découvrons comment évoluer à chaque étape.

Ingénierie et gestion des données : passage à des ressources de données en constante évolution

Le trafic de production étant désormais fluide, il est temps de transformer les jeux de données statiques en ressources constamment enrichies, alimentées par les interactions réelles avec les utilisateurs.

Exploration systématique des journaux de production : développez la sélection de modèles et les jeux de données d’évaluation des invites, en passant de centaines d’exemples sélectionnés à des milliers de cas de test réels. Recueillez des exemples de peaufinage à haute valeur, par exemple des conversations nécessitant une intervention humaine et des requêtes démontrant les comportements souhaités. Utilisez Amazon SageMaker Ground Truth Plus pour sélectionner des exemples de production à des fins de peaufinage supervisé.

Pipeline de données RAG automatisé : remplacez les mises à jour manuelles des sources de données pour les bases de connaissances par des flux de travail pilotés par les événements à l’aide d’Amazon EventBridge. Les flux de travail impliquant des documents, des images, du son et des vidéos peuvent être automatisés à l’échelle à l’aide d’Amazon Bedrock Data Automation. Lorsque les requêtes ne parviennent pas à récupérer le contexte pertinent ou affichent de faibles scores de confiance, capturez automatiquement les échecs sous forme de cas de test d’évaluation RAG.

Ressources utiles :

Développement et expérimentation : défendez l’itération systématique

À mesure de l’évolution de votre activité, vous devez passer du prototypage manuel à l’expérimentation systématique. Cela implique d’exécuter des tests parallèles sur votre pile d’IA afin de découvrir en permanence des améliorations.

Optimisation continue des modèles et des invites : faites du dimensionnement approprié des modèles une pratique continue, en réévaluant les choix à mesure que de nouveaux modèles apparaissent ou que les exigences changent. Choisissez des systèmes multimodèles qui adaptent automatiquement la complexité des tâches aux capacités du modèle. Étendez cette efficacité aux invites grâce au routage dynamique avec des modèles spécialisés basés sur la classification des requêtes, le contexte utilisateur et l’historique des performances. Suivez les métriques de performance multidimensionnelles (précision, latence et coût) pour prendre des décisions basées sur les données concernant le bon dimensionnement des modèles ou le changement des variantes d’invite.

Flux de travail de peaufinage du contexte : établissez des processus d’optimisation répétables pour récupérer des connaissances externes et personnaliser les modèles. Pour l’optimisation RAG, mettez en œuvre une expérimentation structurée en testant des stratégies de segmentation et des approches de récupération avancées (recherche hybride, filtrage des métadonnées, reformulation des requêtes, reclassement), puis en itérant en fonction de la précision de récupération et de la latence. Optimisez la taille de la vectorisation en testant, par exemple, les dimensions 768 ou 512 par rapport à 1536 pour réduire les coûts de stockage et la latence de récupération tout en préservant la précision. Pour la personnalisation des modèles, tirez parti d’Amazon Bedrock pour rationaliser les flux de travail : utilisez un entraînement préalable continu pour adapter les modèles au vocabulaire spécifique à un domaine, ou des peaufinages supervisés pour améliorer les performances spécifiques à une tâche. Amazon SageMaker AI permet de mieux contrôler l’entraînement à mesure que les besoins augmentent.

Établissez des cycles d’optimisation réguliers pour faire évoluer les systèmes contextuels avec votre application, qu’il s’agisse d’évaluations mensuelles des performances RAG ou d’évaluations trimestrielles de personnalisation des modèles.

Orchestration des agents pour les flux de travail complexes : quand vos agents gèrent diverses charges de travail de production, les architectures à agent unique atteignent des limites de complexité. Les agents qui tentent à la fois de répondre à des demandes de facturation et de résoudre des problèmes techniques sont confrontés à des contextes et ensembles d’outils qui empiètent les uns sur les autres. Surveillez les taux d’achèvement en fonction de la complexité des tâches : si votre agent réussit 85 % des tâches nécessitant 2 à 3 appels d’outil, mais tombe à 45 % avec plus de 5 appels, vous avez trouvé le seuil de décomposition. Déployez des systèmes multi-agents spécialisés dans lesquels un agent de routage délègue les questions de facturation aux agents de paiement et les problèmes techniques aux agents d’assistance.

Amazon Bedrock AgentCore répond aux problèmes de mise à l’échelle en production en isolant les sessions pour les utilisateurs simultanés, en prolongeant les temps d’exécution pour les raisonnements complexes et en unifiant l’observabilité à travers vos agents. Pour vous protéger contre les coûts incontrôlés, mettez en œuvre des mécanismes d’expiration afin de réduire la probabilité de blocages sur les flux de travail et les exécutions des agents.

Expérimentation systématique sans chaos en production : l’exécution simultanée de plusieurs expériences repose sur l’isolation des tests et la protection du trafic de production. Pour contrôler les déploiements de composants d’IA, déployez des indicateurs de fonctionnalités via AWS AppConfig, où vous pouvez tester de nouvelles stratégies de récupération RAG ou évaluer des variantes d’invite simultanément sur tous les segments d’utilisateurs.

Pour garantir la fiabilité des résultats des expériences, commencez par créer des environnements de test isolés qui reflètent les données de production et les modèles de trafic. Établissez ensuite des métriques standardisées portant à la fois sur des aspects techniques comme la précision et la latence, et des métriques relatives au comportement des utilisateurs, comme la satisfaction et l’engagement. Lorsque vous comparez des expériences, adoptez une approche holistique de l’évaluation. Par exemple, lorsque vous comparez deux stratégies de récupération RAG, considérez qu’une légère amélioration de la précision associée à une meilleure latence peut entraîner une plus grande satisfaction globale des utilisateurs qu’un gain de précision plus important associé à une latence accrue. Cela garantit que vos résultats expérimentaux reflètent l’impact dans le monde réel plutôt que de simples métriques isolées.

Ressources utiles :

Tests et évaluations : créez des boucles de qualité continues

Les tests manuels peuvent rapidement devenir ingérables, en particulier si vous livrez plusieurs fois par semaine. Le passage d’une phase de pré-publication à une boucle de rétroaction continue accélérera les itérations et empêchera les mauvais déploiements de nuire à la confiance des clients.

Pipeline d’évaluation automatisé : transformez les approches d’évaluation de la partie 2 en suites de tests automatisées intégrées à votre pipeline CI/CD. Chaque déploiement de code déclenche automatiquement des évaluations des composants et de bout en bout, qui mesurent la précision, l’achèvement des tâches et la qualité des réponses. Détectez les problèmes liés aux mises à jour de la base de connaissances ou à l’actualisation des données en dehors des cycles de déploiement en programmant des tests de régression nocturnes. N’oubliez pas de définir des seuils de qualité pour bloquer les déploiements qui augmentent la latence ou réduisent la précision. La réintroduction des échecs de test dans votre pipeline de données enrichira également votre couverture d’évaluation.

Stratégies d’évaluation d’IA responsable : l’exactitude fonctionnelle ne suffit pas ; les systèmes de production doivent être sûrs et fiables. Étendez les tests automatisés pour inclure la détection des hallucinations avec des vérifications factuelles, la résistance à l’injection d’invite via des cas de test adverses et l’évaluation du contenu préjudiciable. Parmi les autres stratégies visant à améliorer les performances et la sécurité à grande échelle, citons l’organisation régulière d’exercices d’équipe rouge pour identifier les comportements dangereux et le contrôle ponctuel des résultats de production pour des métriques d’IA responsable.

Ressources utiles :

Déploiement et mise en service : mettre à l’échelle avec résilience

À mesure de l’évolution de votre trafic de production, le déploiement devrait passer de la simple mise en ligne des applications à la mise en œuvre de stratégies garantissant la fiabilité et les performances.

Stratégies de déploiement pouvant être mises à l’échelle : commencez par définir les exigences de performances, notamment le débit cible, les centiles de latence et les seuils de dégradation. Ensuite, effectuez des tests de charge simulant un trafic soutenu, des modèles de rafale et des flux de travail en plusieurs étapes. Cela permettra d’identifier les écarts de performance, d’éclairer les décisions architecturales et de valider les exigences en matière d’infrastructure.

Optimisez l’efficacité de l’inférence grâce à des modèles de mise en cache et de diffusion intelligents. L’utilisation de la mise en cache des invites de Bedrock vous aidera à réutiliser de grands blocs de contexte, réduisant ainsi la latence et les coûts. L’adaptation des modèles d’inférence aux exigences, par exemple en utilisant l’inférence en temps réel pour les applications interactives ou l’inférence par lots pour une analyse hors ligne, réduira également considérablement les coûts.

Pour concevoir une architecture adaptée à l’ensemble de votre pile, l’inférence interrégionale Amazon Bedrock achemine automatiquement les demandes vers les régions AWS optimales pour un débit et une disponibilité accrus. Parallèlement, l’autoscaling des points de terminaison SageMaker AI ajuste la capacité de manière dynamique, le service d’exécution Bedrock AgentCore permet un déploiement sécurisé des agents à l’échelle, et OpenSearch sans serveur met à l’échelle automatiquement la capacité de calcul des bases de données vectorielles.

Les modèles de déploiement peuvent également réduire les risques liés aux publications, comme les déploiements canary, en exposant 5 à 10 % du trafic à de nouveaux modèles tout en surveillant les métriques avant le déploiement complet, et les déploiements bleu-vert qui permettent de revenir instantanément en arrière à partir des régressions.

Stratégies de service résilientes : au-delà de la capacité de mise à l’échelle, les systèmes de production doivent gérer les limites de quotas, les défaillances transitoires et les charges inattendues sans dégrader l’expérience utilisateur. Passez en revue les quotas Amazon Bedrock de manière proactive, en demandant des augmentations avant d’atteindre les limites. Implémentez la limitation du débit à l’aide d’Amazon API Gateway pour contrôler les demandes entrantes et garantir une utilisation équitable. Utilisez Amazon SQS entre votre application et vos modèles pour absorber la variabilité de la demande et empêcher le rejet des demandes.

En configurant des hiérarchies de modèles en cascade (modèle principal à modèle de secours, puis réponses mises en cache et enfin réponses progressivement dégradées), vous pouvez vous assurer que les utilisateurs reçoivent toujours une réponse même en cas d’échec des chemins de service optimaux. Au-delà de cela, implémentez des disjoncteurs pour arrêter les requêtes sur les dépendances défaillantes.

Ressources utiles :

Observabilité et peaufinage : favoriser l’amélioration continue

Faites de l’observabilité votre principal avantage concurrentiel grâce à un système en boucle fermée où les informations déclenchent automatiquement des améliorations, créant ainsi une application qui s’améliore d’elle-même.

Observabilité unifiée des métriques techniques et commerciales : l’analyse de corrélation est essentielle pour comprendre le comportement du système dans son ensemble. Pour ce faire, créez des tableaux de bord unifiés combinant des métriques techniques et commerciales, pas simplement de type « Modèle A contre modèle B », mais plutôt « Modèle A à 0,02 USD/demande avec une précision de 92 % contre un modèle B à 0,08 USD/demande avec une précision de 94 % », puis suivez l’impact de chacun sur la fidélisation des utilisateurs sur 30 jours. Concevez des vues spécifiques aux rôles à partir de la télémétrie partagée : l’ingénierie voit les alertes de taux d’erreur et les tendances de latence ; les équipes produit voient les taux d’achèvement et les modèles d’interaction avec les utilisateurs ; les dirigeants voient les corrélations entre le coût par interaction et le retour sur investissement. Ainsi, lorsque votre bot de service client affiche des requêtes 40 % plus longues lors du lancement de fonctionnalités ou que des tendances saisonnières modifient la structure des coûts de 60 %, une analyse de corrélation intermétrique en révèle la cause racine.

Cycles d’amélioration en boucle fermée : la véritable excellence en production provient de la création de systèmes en boucle fermée où l’observabilité déclenche le peaufinage de l’ensemble du pipeline GenAIOps, comme le montre l’illustration ci-dessous.

Par exemple, l’observabilité de votre bot de service client peut entraîner les améliorations suivantes :

Ingénierie et gestion des données : lorsque le taux de réponses ayant échoué augmente de 15 % pour les requêtes de lancement de produit, EventBridge déclenche la synchronisation de la base de connaissances pour intégrer la documentation la plus récente depuis les systèmes sources.
Développement et expérimentation : si les taux de résolution des bots chutent de 20 % pour les requêtes de facturation, le système met en file d’attente des tests A/B pour des variantes d’invite spécialisées dans la facturation.
Tests et évaluation : lorsque les échecs de conversation liés au suivi des commandes augmentent de 25 %, des cas de test sont automatiquement générés à partir des interactions ayant échoué et ajoutés aux suites de régression.
Déploiement et diffusion : lorsque l’analyse des traces montre que 8 % des flux de travail des agents expirent après 30 secondes mais se terminent correctement après 45 secondes, les configurations d’expiration sont ajustées.
Gouvernance et maintenance : lorsque les journaux de déploiement indiquent que 40 % des publications échouent en raison d’autorisations IAM manquantes ou de préconditions d’infrastructure manquantes, des contrôles de validation avant le déploiement sont ajoutés au pipeline de déploiement afin de détecter les problèmes de configuration avant qu’ils empêchent les publications.

Ressources utiles :

Gouvernance et maintenance : permettre une innovation sûre

Votre cadre de gouvernance doit ressembler à un conseiller de confiance qui accélère la prise de risques intelligente tout en évitant les erreurs coûteuses. Transformez ces barrières de protection de la partie 2 en avantage concurrentiel grâce à des pratiques d’IA responsable qui renforcent la confiance des clients.

Flux de travail de gouvernance automatisés : remplacez les révisions manuelles par une automatisation intelligente, en utilisant AWS Step Functions pour créer des flux de travail d’approbation dans lesquels les mises à jour à faible risque, comme le peaufinage des modèles d’invite, se déploient automatiquement, et les mises à jour à haut risque, comme les modifications de modèle, déclenchent des évaluations humaines. Vous pouvez également automatiser la documentation de conformité, de la capture des chaînes d’approbation à la gestion des pistes d’audit. Lorsque les déploiements enfreignent les politiques, les flux de travail bloquent automatiquement la publication et sont transmis aux parties prenantes.

Infrastructure en tant que code et suivi de la traçabilité : codifiez l’ensemble de votre infrastructure d’IA en capturant les connaissances relatives au déploiement dans un code avec contrôle de version. Suivez la traçabilité des modèles à l’aide du registre des modèles Amazon SageMaker et la traçabilité des données à l’aide des fonctionnalités d’Amazon SageMaker Catalog. La documentation de la façon dont les données circulent des documents sources aux résultats des modèles, puis aux étapes de traitement permet également de créer des pistes d’audit destinées à faciliter le débogage et la conformité, permettant ainsi la traçabilité de tout, des données d’entraînement aux résultats d’inférence.

Visibilité et responsabilité opérationnelles : créez des tableaux de bord spécifiques aux rôles dans Amazon QuickSight qui présentent des métriques de gouvernance. Établissez une appropriation claire entre les équipes, avec des objectifs de performance propres aux produits, la fiabilité sous la responsabilité de l’ingénierie, la sécurité sous la responsabilité de l’équipe conformité et la coordination de la gouvernance entre les équipes.

Ressources utiles :

Conclusion

Atteindre l’excellence en matière de production n’est pas un effort ponctuel, mais un processus continu visant à créer un pipeline qui tire les leçons de chaque déploiement, de chaque échec et de chaque interaction avec les utilisateurs. Ces améliorations systématiques sont synergiques au fil du temps, créant des avantages concurrentiels qui vont bien au-delà de ce que l’on peut obtenir grâce à des fonctionnalités de livraison plus rapides.

Pour passer à l’étape suivante, priorisez les étapes les plus difficiles de votre pipeline, qu’il s’agisse d’expériences trop longues à valider, de déploiements difficiles ou de coûts imprévisibles. Une fois que vous avez automatisé ce domaine, passez au suivant et continuez. Au final, ce qui distingue les meilleures start-ups de l’IA, ce n’est pas l’accès à de meilleurs modèles, mais un pipeline GenAIOps robuste qui améliore continuellement l’expérience utilisateur.

Nima Seifi

Nima Seifi est architecte de solutions senior chez AWS, dans le sud de la Californie, où il est spécialisé dans le SaaS et les GenAIOps. Il sert de conseiller technique pour les start-ups qui s’appuient sur AWS. Avant de rejoindre AWS, il a travaillé comme architecte DevOps dans le secteur de l’e-commerce pendant plus de 5 ans, après une décennie de travail de R&D dans les technologies de l’Internet mobile. Nima est l’auteur de plus de 20 publications dans des revues techniques et des conférences de premier plan, et détient 7 brevets américains. En dehors du travail, il aime lire, regarder des documentaires et se promener sur la plage.

Pat Santora

Pat Santora est un architecte et technologue cloud pour les laboratoires d’IA générative avec plus de 25 ans d’expérience dans la mise en œuvre de solutions dans le cloud pour les entreprises et les start-ups. Il a lancé avec succès de nombreux produits dès leurs débuts, dirigé des projets de refonte analytique et géré des équipes à distance avec une philosophie axée sur la transparence et la confiance. Son expertise technique couvre la planification stratégique, la gestion des systèmes et la refonte architecturale, complétée par son intérêt pour l’IA générative, l’analytique et le big data.

Clement Perrot

Clément Perrot aide les start-ups de premier plan à accélérer leurs initiatives d’IA en fournissant des conseils stratégiques sur la sélection de modèles, la mise en œuvre de l’IA responsable et l’exécution d’opérations de machine learning optimisées. Entrepreneur en série et lauréat du prix Inc 30 Under 30, il possède une expertise approfondie dans la création et le développement d’entreprises d’IA, ayant fondé et quitté avec succès de nombreuses entreprises dans les domaines des technologies grand public et de l’IA d’entreprise.

Comment a été ce contenu ?