Instrucciones de instalación
Requisitos previos
- Credenciales de AWS con acceso al modelo Bedrock
uvinstalado- Claude Code, Cursor, Kiro, VS Code o cualquier IDE compatible con MCP
Instalación
Elija su IDE y pegue o haga clic.
Claude Code: un único comando de la CLI:
claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp
Cursor: enlace profundo de un clic: Install eval-mcp in Cursor
Kiro: agregar a ~/.kiro/settings/mcp.json:
{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }
Codex CLI: agregar a ~/.codex/config.toml y después reiniciar Codex:
[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]
VS Code (con GitHub Copilot MCP): un único comando de la CLI:
code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'
¿Utiliza un agente de programación para la instalación? Indíquele INSTALL.md : se encargará de editar la configuración y preguntará sobre el uso compartido opcional de equipos mediante S3.
Actualización
uvx almacena en caché la versión resuelta para cada paquete. Para obtener versiones más recientes, invalide la caché:
uv cache clean llm-evaluation-system
Reinicie su IDE después. El siguiente lanzamiento resuelve y almacena en caché la versión publicada más reciente.
Uso
Pídale a su asistente de IA que evalúe los agentes, los modelos o las peticiones, mediante un conjunto de datos que proporcione o uno generado a partir de sus documentos o contexto:
- “Evalúe a mi agente en
./my_agent.py” - “Compare Claude Sonnet con Nova Pro en este conjunto de datos”
- “Pruebe estas tres plantillas de peticiones con mi conjunto de preguntas y respuestas de referencia”
- “Genere un conjunto de datos a partir de este PDF y ejecute una evaluación”
El agente elige el modo correcto, genera de manera automática lo que falta (conjunto de datos, juez, criterios), lo ejecuta, abre el visor de resultados en su navegador y le entrega un informe en PDF.