Lewati ke konten utamaAWS Startups
  1. Pustaka Prompt dan Agen
  2. Agen Evaluasi LLM
Agent Icon

Agen Evaluasi LLM

  • Pemrototipean
  • S3
  • Menengah

Agen ini membantu Anda mengevaluasi LLM, agen, dan prompt melalui konfigurasi bahasa alami, pembuatan set data otomatis, penilaian multi-juri, dan pelaporan PDF.

Dibuat pada 14 Mei 2026 oleh Andre Gomes

Dengan menggunakan prompt ini, Anda menyetujui penafian ini.

Detail Agen

An LLM Evaluation Agent that you can describe to it what you want to evaluate in natural language — the expert AI agent handles dataset generation, judge configuration, execution, and analysis end-to-end, and hands you back a PDF report.

Features
Expert agent interface — The agent knows evaluation best practices, recommends criteria and validates configurations before execution. No config files or CLI expertise needed.
Jury system — Multiple judges from different model families (e.g. Claude Sonnet, Nova Pro, Nemotron) each evaluate distinct aspects of every response — correctness, reasoning, completeness. Combining diverse judge families reduces self-preference bias, and aggregating weak signals from diverse judges and criteria produces stronger results than any single judge (Verma et al., 2025, Frick et al., 2025).
Adaptable binary scoring — Binary pass/fail per criteria rather than subjective numeric scales, shown to produce more reliable results across judges (Chiang et al., 2025). Criteria are tailored by the agent to what you're evaluating.
Document-grounded synthetic data — Upload PDFs, knowledge bases, or product docs and generate QA pairs grounded in your actual content, reflecting real customer scenarios.
Agentic eval support — Evaluate any agent calling Bedrock (Strands, LangChain, custom boto3) with zero code modification via OpenTelemetry instrumentation.

Instruksi instalasi

Prasyarat

  • Kredensial AWS dengan akses model Bedrock
  • uv diinstal
  • Claude Code, Cursor, Kiro, VS Code, atau IDE yang kompatibel dengan MCP

Instal

Pilih IDE Anda, lalu tempel/klik.

Claude Code — satu perintah CLI:

claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp

Cursor — deeplink sekali klik: Instal eval-mcp di Cursor

Kiro — tambahkan ke ~/.kiro/settings/mcp.json:

{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }

Codex CLI — tambahkan ke ~/.codex/config.toml, lalu mulai ulang Codex:

[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]

VS Code (dengan GitHub Copilot MCP) — satu perintah CLI:

code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'

Menggunakan agen pengodean untuk instalasi? Arahkan ke INSTALL.md —— agen akan menangani pengeditan konfigurasi dan menanyakan tentang opsi berbagi tim S3.

Meningkatkan

uvx menyimpan versi hasil resolusi untuk tiap paket di cache. Untuk mengambil rilis terbaru, hapus cache:

uv cache clean llm-evaluation-system

Setelah itu, mulai ulang IDE Anda. Saat dijalankan kembali, sistem akan menentukan dan menyimpan versi terbitan terbaru ke cache.

Gunakan

Minta asisten AI Anda untuk mengevaluasi agen, model, atau prompt — menggunakan set data yang Anda sediakan atau yang dibuat dari dokumen maupun konteks Anda:

  • "Evaluasi agen saya di ./my_agent.py"
  • "Bandingkan Claude Sonnet dan Nova Pro pada set data ini"
  • "Uji ketiga templat prompt ini menggunakan set QA gold saya"
  • "Buat set data dari PDF ini, lalu jalankan evaluasi"

Agen akan memilih mode yang tepat, membuat secara otomatis apa pun yang belum tersedia (set data, juri, kriteria), menjalankannya, membuka penampil hasil di perambah Anda, dan memberikan laporan PDF kepada Anda.