Passer au contenu principal

Optimisez les coûts, la latence et la précision

Améliorez la précision et les performances tout en contrôlant les coûts grâce à des outils permettant d’évaluer et d’optimiser l’IA à chaque étape

Ne faites jamais de compromis sur les performances

Amazon Bedrock vous aide à trouver le juste équilibre entre coût, latence et précision, afin que vos applications d’IA générative fonctionnent efficacement sans dépenses excessives. Avec des fonctionnalités comme la distillation de modèles, le routage des invites intelligent, la mise en cache des invites et des options d’inférence flexibles, notamment le débit à la demande, par lots et provisionné, Amazon Bedrock vous donne le contrôle nécessaire pour optimiser tous les cas d’utilisation et mettre à l’échelle en toute confiance. Que vous utilisiez des charges de travail en temps réel ou par lots, Amazon Bedrock vous permet de créer des systèmes d’IA plus intelligents, simples et rentables.

Missing alt text value

Améliorez les performances. Réduisez les coûts.

Utilisez la mise en cache des invites pour réduire les coûts jusqu’à 90 % et la latence jusqu’à 85 % pour les modèles pris en charge

De nombreux cas d’utilisation du modèle de fondation (FM) réutiliseront certaines parties des invites (préfixes) entre des appels d’API. Grâce à la mise en cache des invites, les modèles pris en charge vous permettent de mettre en cache ces préfixes d’invite répétés entre les demandes. Ce cache permet au modèle d’ignorer le recalcul des préfixes correspondants.

  • Améliorez les performances pour de multiples cas d’utilisation.
  • Mettez en cache les parties pertinentes de votre invite afin de réduire les coûts liés aux jetons d’entrée.
  • Intégrez-la à d’autres fonctionnalités d’Amazon Bedrock pour accélérer les tâches en plusieurs étapes ou les invites système plus longues afin d’affiner le comportement des agents sans ralentir vos réponses.
Missing alt text value

Accélérez l’ingénierie rapide pour les applications d’IA générative

Amazon Bedrock Prompt Management simplifie la création, l’évaluation, la gestion des versions et l’exécution d’invites afin de permettre aux développeurs d’obtenir les meilleures réponses à partir des modèles de fondation (FM) pour leurs cas d’utilisation.

  • La gestion des invites vous permet de tester différents FM, configurations, outils et instructions.
  • L’optimisation des invites dans la gestion des invites réécrit automatiquement les invites pour améliorer la précision et fournir des réponses plus concises de la part des FM.
  • Testez instantanément les invites avec les derniers FM sans aucun déploiement.
  • Créez rapidement des applications d’IA générative et collaborez pour la création d’invites dans Amazon SageMaker Unified Studio.
Missing alt text value

Optimisez les performances à moindre coût grâce au routage des invites intelligent

Le routage intelligent des invites Amazon Bedrock achemine les invites vers différents modèles de fondation (FM) au sein d’une famille de modèles, ce qui vous permet d’optimiser la qualité des réponses et les coûts. Le routage des invites intelligent peut réduire les coûts jusqu’à 30 % sans compromettre la précision.

  • Amazon Bedrock achemine les demandes de manière dynamique vers le modèle qui, selon ses prévisions, est le plus susceptible de donner la réponse souhaitée au moindre coût.
  • Réduisez vos efforts de développement, testez différents modèles et créez des flux de travail d’orchestration complexes en sélectionnant des routeurs d’invites parmi ceux fournis par défaut par Amazon Bedrock, ou en configurant les vôtres.
  • Déboguez facilement grâce à des demandes entièrement traçables.
Missing alt text value

Les modèles distillés dans Amazon Bedrock sont jusqu’à 500 % plus rapides et jusqu’à 75 % moins coûteux que les modèles d’origine, avec une perte de précision inférieure à 2 % pour des cas d’utilisation tels que la génération à enrichissement contextuel (RAG)

Exploitez des modèles plus petits, plus rapides et plus économiques, tout en conservant une précision adaptée à vos cas d’utilisation, comparable à celle des modèles les plus performants disponibles dans Amazon Bedrock.

Ajustez un modèle « étudiant » à l’aide d’un modèle « enseignant » ayant la précision que vous souhaitez.

  • Optimisez les performances des modèles distillés grâce à une synthèse de données exclusive.
  • Réduisez les coûts en utilisant vos données de production pour l’entraînement. La distillation de modèles vous permet de fournir des invites, utilisées pour générer des réponses synthétiques servant à optimiser les modèles étudiants.
  • Améliorez la précision des prédictions d’appels de fonctions pour les agents. Permettez à des modèles plus légers de prédire correctement les appels de fonctions afin de réduire considérablement les temps de réponse et les coûts opérationnels.
Missing alt text value