Zum Hauptinhalt springenAWS Startups
  1. Prompt- und Agentenbibliothek
  2. LLM Evaluation Agent
Agent Icon

LLM Evaluation Agent

  • Prototypenbau
  • S3
  • Mittelstufe

Dieser Agent unterstützt Sie bei der Bewertung von LLMs, Agenten und Prompts durch die Konfiguration in natürlicher Sprache, die automatische Generierung von Datensätzen, das Multi-Judge Scoring und die Erstellung von PDF-Berichten.

Erstellt am 14. Mai 2026 von Andre Gomes

Mit der Verwendung dieser Prompts stimmen Sie dem Haftungsausschluss zu.

Agenten-Details

An LLM Evaluation Agent that you can describe to it what you want to evaluate in natural language — the expert AI agent handles dataset generation, judge configuration, execution, and analysis end-to-end, and hands you back a PDF report.

Features
Expert agent interface — The agent knows evaluation best practices, recommends criteria and validates configurations before execution. No config files or CLI expertise needed.
Jury system — Multiple judges from different model families (e.g. Claude Sonnet, Nova Pro, Nemotron) each evaluate distinct aspects of every response — correctness, reasoning, completeness. Combining diverse judge families reduces self-preference bias, and aggregating weak signals from diverse judges and criteria produces stronger results than any single judge (Verma et al., 2025, Frick et al., 2025).
Adaptable binary scoring — Binary pass/fail per criteria rather than subjective numeric scales, shown to produce more reliable results across judges (Chiang et al., 2025). Criteria are tailored by the agent to what you're evaluating.
Document-grounded synthetic data — Upload PDFs, knowledge bases, or product docs and generate QA pairs grounded in your actual content, reflecting real customer scenarios.
Agentic eval support — Evaluate any agent calling Bedrock (Strands, LangChain, custom boto3) with zero code modification via OpenTelemetry instrumentation.

Installationsanleitung

Voraussetzungen

  • AWS-Anmeldeinformationen mit Zugriff auf Bedrock-Modell
  • uv installiert
  • Claude Code, Cursor, Kiro, VS Code oder MCP-kompatible IDE

Installieren

IDE wählen und einfügen/klicken.

Claude Code – ein CLI-Befehl:

claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp

Cursor – Deeplink mit einem Klick: eval-mcp in Cursor installieren

Kiro – hinzufügen zu ~/.kiro/settings/mcp.json:

{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }

Codex CLI – hinzufügen zu ~/.codex/config.toml, dann Codex neu starten:

[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]

VS Code (mit GitHub Copilot MCP) – ein CLI-Befehl:

code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'

Verwenden Sie einen Codierungsagenten zur Installation? Verweisen Sie ihn auf INSTALL.md – er kümmert sich um die Bearbeitung der Konfiguration und fragt nach der optionalen Freigabe für das S3-Team.

Upgraden

uvx speichert die aufgelöste Version pro Paket im Cache. Um neuere Versionen abzurufen, leeren Sie den Cache:

uv cache clean llm-evaluation-system

Starten Sie anschließend die IDE neu. Beim nächsten Start wird die neueste veröffentlichte Version aufgelöst und im Cache gespeichert.

Verwenden

Bitten Sie den KI-Assistenten, Agenten, Modelle oder Prompts zu bewerten – mithilfe eines von Ihnen bereitgestellten Datensatzes oder mithilfe eines aus Ihren Dokumenten oder Kontexten generierten Datensatzes:

  • „Bewerte meinen Agenten unter ./my_agent.py.“
  • „Vergleiche Claude Sonnet und Nova Pro bei diesem Datensatz.“
  • „Teste diese drei Prompt-Vorlagen anhand meines goldenen QA-Satzes.“
  • „Generiere einen Datensatz aus dieser PDF-Datei und führe eine Bewertung durch.“

Der Agent wählt den richtigen Modus aus, generiert automatisch fehlende Elemente (Datensatz, Juror, Kriterien), führt alles aus, öffnet den Ergebnis-Viewer im Browser und stellt Ihnen einen PDF-Bericht zur Verfügung.