Instructions d’installation
Conditions préalables
- Informations d’identification AWS avec accès au modèle Bedrock
uvinstallé- Claude Code, Cursor, Kiro, VS Code ou tout autre IDE compatible MCP
Installer
Choisissez votre IDE et collez/cliquez.
Claude Code –une commande CLI :
claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp
Cursor – lien profond en un clic : installez eval-mcp dans Cursor
Kiro – ajouter à ~/.kiro/settings/mcp.json :
{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }
Codex CLI : ajoutez à ~/.codex/config.toml, puis redémarrez Codex :
[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]
VS Code (avec GitHub Copilot MCP) – une commande CLI :
code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'
Vous utilisez un agent de codage pour l’installation ? Dirigez-le vers INSTALL.md – Il gère la modification de la configuration et pose des questions sur le partage d’équipe S3 facultatif.
Mise à niveau
uvx met en cache la version résolue par package. Pour extraire les nouvelles versions, invalidez le cache :
uv cache clean llm-evaluation-system
Redémarrez ensuite votre IDE. Le prochain lancement corrige et met en cache la dernière version publiée.
Utiliser
Demandez à votre assistant IA d’évaluer les agents, les modèles ou les invites, à l’aide d’un jeu de données que vous fournissez ou d’un jeu de données généré à partir de vos documents ou de votre contexte :
- « Évaluer mon agent sur
./my_agent.py» - « Comparer Claude Sonnet à Nova Pro sur ce jeu de données »
- « Tester ces trois modèles d’invite par rapport à mon jeu QA en or »
- « Générer un jeu de données à partir de ce PDF et exécuter une évaluation »
L’agent choisit le bon mode, génère automatiquement tout ce qui manque (jeu de données, juge, critères), l’exécute, ouvre la visionneuse de résultats dans votre navigateur et vous transmet un rapport PDF.