Passer au contenu principalAWS Startups
  1. Bibliothèque d’invites et d’agents
  2. Agent d’évaluation de LLM
Agent Icon

Agent d’évaluation de LLM

  • Prototypage
  • S3
  • Intermédiaire

Cet agent vous aide à évaluer les LLM, les agents et les invites grâce à une configuration en langage naturel, à la génération automatique de jeux de données, à une notation multi-juges et à des rapports PDF.

Créé le 14 mai 2026 par Andre Gomes

En utilisant ces invites, vous acceptez cette clause de non-responsabilité.

Détails sur l’agent

An LLM Evaluation Agent that you can describe to it what you want to evaluate in natural language — the expert AI agent handles dataset generation, judge configuration, execution, and analysis end-to-end, and hands you back a PDF report.

Features
Expert agent interface — The agent knows evaluation best practices, recommends criteria and validates configurations before execution. No config files or CLI expertise needed.
Jury system — Multiple judges from different model families (e.g. Claude Sonnet, Nova Pro, Nemotron) each evaluate distinct aspects of every response — correctness, reasoning, completeness. Combining diverse judge families reduces self-preference bias, and aggregating weak signals from diverse judges and criteria produces stronger results than any single judge (Verma et al., 2025, Frick et al., 2025).
Adaptable binary scoring — Binary pass/fail per criteria rather than subjective numeric scales, shown to produce more reliable results across judges (Chiang et al., 2025). Criteria are tailored by the agent to what you're evaluating.
Document-grounded synthetic data — Upload PDFs, knowledge bases, or product docs and generate QA pairs grounded in your actual content, reflecting real customer scenarios.
Agentic eval support — Evaluate any agent calling Bedrock (Strands, LangChain, custom boto3) with zero code modification via OpenTelemetry instrumentation.

Instructions d’installation

Conditions préalables

  • Informations d’identification AWS avec accès au modèle Bedrock
  • uv installé
  • Claude Code, Cursor, Kiro, VS Code ou tout autre IDE compatible MCP

Installer

Choisissez votre IDE et collez/cliquez.

Claude Code –une commande CLI :

claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp

Cursor – lien profond en un clic : installez eval-mcp dans Cursor

Kiro – ajouter à  ~/.kiro/settings/mcp.json :

{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }

Codex CLI  : ajoutez à ~/.codex/config.toml, puis redémarrez Codex :

[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]

VS Code  (avec GitHub Copilot MCP) – une commande CLI :

code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'

Vous utilisez un agent de codage pour l’installation ? Dirigez-le vers   INSTALL.md – Il gère la modification de la configuration et pose des questions sur le partage d’équipe S3 facultatif.

Mise à niveau

uvx met en cache la version résolue par package. Pour extraire les nouvelles versions, invalidez le cache :

uv cache clean llm-evaluation-system

Redémarrez ensuite votre IDE. Le prochain lancement corrige et met en cache la dernière version publiée.

Utiliser

Demandez à votre assistant IA d’évaluer les agents, les modèles ou les invites, à l’aide d’un jeu de données que vous fournissez ou d’un jeu de données généré à partir de vos documents ou de votre contexte :

  • « Évaluer mon agent sur ./my_agent.py »
  • « Comparer Claude Sonnet à Nova Pro sur ce jeu de données »
  • « Tester ces trois modèles d’invite par rapport à mon jeu QA en or »
  • « Générer un jeu de données à partir de ce PDF et exécuter une évaluation »

L’agent choisit le bon mode, génère automatiquement tout ce qui manque (jeu de données, juge, critères), l’exécute, ouvre la visionneuse de résultats dans votre navigateur et vous transmet un rapport PDF.