Passa al contenuto principaleAWS Startups
  1. Libreria di prompt e agenti
  2. Agente di valutazione LLM
Agent Icon

Agente di valutazione LLM

  • Prototipazione
  • S3
  • Intermedio

Questo agente consente di valutare LLM, agenti e prompt attraverso la configurazione in linguaggio naturale, la generazione automatica di set di dati, la valutazione da parte di più giudici e la creazione di report PDF.

Creato il 14 mag 2026 da Andre Gomes

Utilizzando queste istruzioni, l'utente accetta avvertenza.

Dettagli dell’agente

An LLM Evaluation Agent that you can describe to it what you want to evaluate in natural language — the expert AI agent handles dataset generation, judge configuration, execution, and analysis end-to-end, and hands you back a PDF report.

Features
Expert agent interface — The agent knows evaluation best practices, recommends criteria and validates configurations before execution. No config files or CLI expertise needed.
Jury system — Multiple judges from different model families (e.g. Claude Sonnet, Nova Pro, Nemotron) each evaluate distinct aspects of every response — correctness, reasoning, completeness. Combining diverse judge families reduces self-preference bias, and aggregating weak signals from diverse judges and criteria produces stronger results than any single judge (Verma et al., 2025, Frick et al., 2025).
Adaptable binary scoring — Binary pass/fail per criteria rather than subjective numeric scales, shown to produce more reliable results across judges (Chiang et al., 2025). Criteria are tailored by the agent to what you're evaluating.
Document-grounded synthetic data — Upload PDFs, knowledge bases, or product docs and generate QA pairs grounded in your actual content, reflecting real customer scenarios.
Agentic eval support — Evaluate any agent calling Bedrock (Strands, LangChain, custom boto3) with zero code modification via OpenTelemetry instrumentation.

Istruzioni per l’installazione

Prerequisiti

  • Credenziali AWS con accesso al modello Bedrock
  • uv installato
  • Claude Code, Cursor, Kiro, VS Code o qualsiasi IDE compatibile con MCP

Installa

Scegli il tuo IDE e incolla/fai clic.

Codice Claude : un comando della CLI:

claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp

Cursore : deeplink con un clic: installa eval-mcp in Cursor

Kiro : aggiungi a ~/.kiro/settings/mcp.json:

{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }

CLI Codex : aggiungi a ~/.codex/config.toml, quindi riavvia Codex:

[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]

VS Code (con GitHub Copilot MCP): un comando della CLI:

code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'

Usi un agente di codifica per l'installazione? Puntalo su Install.md : gestisce la modifica della configurazione e chiede informazioni sulla condivisione opzionale tra team S3.

Aggiornamento

uvx memorizza nella cache la versione risolta per pacchetto. Per estrarre le versioni più recenti, invalidate la cache:

uv cache clean llm-evaluation-system

Riavvia il tuo IDE subito dopo dopo. Al successivo avvio viene risolta e memorizzata nella cache la versione più recente pubblicata.

Utilizzo

Chiedi al tuo assistente IA di valutare agenti, modelli o prompt, utilizzando un set di dati fornito o uno generato dai tuoi documenti o dal tuo contesto:

  • "Valuta il mio agente su ./my_agent.py"
  • "Confronta Claude Sonnet e Nova Pro su questo set di dati"
  • "Prova questi tre modelli di prompt confrontandoli con il mio set di domande e risposte d'oro"
  • "Genera un set di dati da questo PDF ed esegui una valutazione"

L'agente sceglie la modalità giusta, genera automaticamente tutto ciò che manca (set di dati, giudice, criteri), la esegue, apre il visualizzatore dei risultati nel browser e fornisce un report PDF.