Installationsanleitung
Voraussetzungen
- AWS-Anmeldeinformationen mit Zugriff auf Bedrock-Modell
uvinstalliert- Claude Code, Cursor, Kiro, VS Code oder MCP-kompatible IDE
Installieren
IDE wählen und einfügen/klicken.
Claude Code – ein CLI-Befehl:
claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp
Cursor – Deeplink mit einem Klick: eval-mcp in Cursor installieren
Kiro – hinzufügen zu ~/.kiro/settings/mcp.json:
{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }
Codex CLI – hinzufügen zu ~/.codex/config.toml, dann Codex neu starten:
[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]
VS Code (mit GitHub Copilot MCP) – ein CLI-Befehl:
code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'
Verwenden Sie einen Codierungsagenten zur Installation? Verweisen Sie ihn auf INSTALL.md – er kümmert sich um die Bearbeitung der Konfiguration und fragt nach der optionalen Freigabe für das S3-Team.
Upgraden
uvx speichert die aufgelöste Version pro Paket im Cache. Um neuere Versionen abzurufen, leeren Sie den Cache:
uv cache clean llm-evaluation-system
Starten Sie anschließend die IDE neu. Beim nächsten Start wird die neueste veröffentlichte Version aufgelöst und im Cache gespeichert.
Verwenden
Bitten Sie den KI-Assistenten, Agenten, Modelle oder Prompts zu bewerten – mithilfe eines von Ihnen bereitgestellten Datensatzes oder mithilfe eines aus Ihren Dokumenten oder Kontexten generierten Datensatzes:
- „Bewerte meinen Agenten unter
./my_agent.py.“ - „Vergleiche Claude Sonnet und Nova Pro bei diesem Datensatz.“
- „Teste diese drei Prompt-Vorlagen anhand meines goldenen QA-Satzes.“
- „Generiere einen Datensatz aus dieser PDF-Datei und führe eine Bewertung durch.“
Der Agent wählt den richtigen Modus aus, generiert automatisch fehlende Elemente (Datensatz, Juror, Kriterien), führt alles aus, öffnet den Ergebnis-Viewer im Browser und stellt Ihnen einen PDF-Bericht zur Verfügung.