Istruzioni per l’installazione
Prerequisiti
- Credenziali AWS con accesso al modello Bedrock
uvinstallato- Claude Code, Cursor, Kiro, VS Code o qualsiasi IDE compatibile con MCP
Installa
Scegli il tuo IDE e incolla/fai clic.
Codice Claude : un comando della CLI:
claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp
Cursore : deeplink con un clic: installa eval-mcp in Cursor
Kiro : aggiungi a ~/.kiro/settings/mcp.json:
{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }
CLI Codex : aggiungi a ~/.codex/config.toml, quindi riavvia Codex:
[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]
VS Code (con GitHub Copilot MCP): un comando della CLI:
code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'
Usi un agente di codifica per l'installazione? Puntalo su Install.md : gestisce la modifica della configurazione e chiede informazioni sulla condivisione opzionale tra team S3.
Aggiornamento
uvx memorizza nella cache la versione risolta per pacchetto. Per estrarre le versioni più recenti, invalidate la cache:
uv cache clean llm-evaluation-system
Riavvia il tuo IDE subito dopo dopo. Al successivo avvio viene risolta e memorizzata nella cache la versione più recente pubblicata.
Utilizzo
Chiedi al tuo assistente IA di valutare agenti, modelli o prompt, utilizzando un set di dati fornito o uno generato dai tuoi documenti o dal tuo contesto:
- "Valuta il mio agente su
./my_agent.py" - "Confronta Claude Sonnet e Nova Pro su questo set di dati"
- "Prova questi tre modelli di prompt confrontandoli con il mio set di domande e risposte d'oro"
- "Genera un set di dati da questo PDF ed esegui una valutazione"
L'agente sceglie la modalità giusta, genera automaticamente tutto ciò che manca (set di dati, giudice, criteri), la esegue, apre il visualizzatore dei risultati nel browser e fornisce un report PDF.