Agente de evaluación de LLM

An LLM Evaluation Agent that you can describe to it what you want to evaluate in natural language — the expert AI agent handles dataset generation, judge configuration, execution, and analysis end-to-end, and hands you back a PDF report. Features Expert agent interface — The agent knows evaluation best practices, recommends criteria and validates configurations before execution. No config files or CLI expertise needed. Jury system — Multiple judges from different model families (e.g. Claude Sonnet, Nova Pro, Nemotron) each evaluate distinct aspects of every response — correctness, reasoning, completeness. Combining diverse judge families reduces self-preference bias, and aggregating weak signals from diverse judges and criteria produces stronger results than any single judge (Verma et al., 2025, Frick et al., 2025). Adaptable binary scoring — Binary pass/fail per criteria rather than subjective numeric scales, shown to produce more reliable results across judges (Chiang et al., 2025). Criteria are tailored by the agent to what you're evaluating. Document-grounded synthetic data — Upload PDFs, knowledge bases, or product docs and generate QA pairs grounded in your actual content, reflecting real customer scenarios. Agentic eval support — Evaluate any agent calling Bedrock (Strands, LangChain, custom boto3) with zero code modification via OpenTelemetry instrumentation.

Instrucciones de instalación

Requisitos previos

Credenciales de AWS con acceso al modelo Bedrock
uv instalado
Claude Code, Cursor, Kiro, VS Code o cualquier IDE compatible con MCP

Instalación

Elija su IDE y pegue o haga clic.

Claude Code: un único comando de la CLI:

claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp

Cursor: enlace profundo de un clic: Install eval-mcp in Cursor

Kiro: agregar a ~/.kiro/settings/mcp.json:

{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }

Codex CLI: agregar a ~/.codex/config.toml y después reiniciar Codex:

[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]

VS Code (con GitHub Copilot MCP): un único comando de la CLI:

code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'

¿Utiliza un agente de programación para la instalación? Indíquele INSTALL.md : se encargará de editar la configuración y preguntará sobre el uso compartido opcional de equipos mediante S3.

Actualización

uvx almacena en caché la versión resuelta para cada paquete. Para obtener versiones más recientes, invalide la caché:

uv cache clean llm-evaluation-system

Reinicie su IDE después. El siguiente lanzamiento resuelve y almacena en caché la versión publicada más reciente.

Uso

Pídale a su asistente de IA que evalúe los agentes, los modelos o las peticiones, mediante un conjunto de datos que proporcione o uno generado a partir de sus documentos o contexto:

“Evalúe a mi agente en ./my_agent.py”
“Compare Claude Sonnet con Nova Pro en este conjunto de datos”
“Pruebe estas tres plantillas de peticiones con mi conjunto de preguntas y respuestas de referencia”
“Genere un conjunto de datos a partir de este PDF y ejecute una evaluación”

El agente elige el modo correcto, genera de manera automática lo que falta (conjunto de datos, juez, criterios), lo ejecuta, abre el visor de resultados en su navegador y le entrega un informe en PDF.