Instruksi instalasi
Prasyarat
- Kredensial AWS dengan akses model Bedrock
uvdiinstal- Claude Code, Cursor, Kiro, VS Code, atau IDE yang kompatibel dengan MCP
Instal
Pilih IDE Anda, lalu tempel/klik.
Claude Code — satu perintah CLI:
claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp
Cursor — deeplink sekali klik: Instal eval-mcp di Cursor
Kiro — tambahkan ke ~/.kiro/settings/mcp.json:
{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }
Codex CLI — tambahkan ke ~/.codex/config.toml, lalu mulai ulang Codex:
[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]
VS Code (dengan GitHub Copilot MCP) — satu perintah CLI:
code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'
Menggunakan agen pengodean untuk instalasi? Arahkan ke INSTALL.md —— agen akan menangani pengeditan konfigurasi dan menanyakan tentang opsi berbagi tim S3.
Meningkatkan
uvx menyimpan versi hasil resolusi untuk tiap paket di cache. Untuk mengambil rilis terbaru, hapus cache:
uv cache clean llm-evaluation-system
Setelah itu, mulai ulang IDE Anda. Saat dijalankan kembali, sistem akan menentukan dan menyimpan versi terbitan terbaru ke cache.
Gunakan
Minta asisten AI Anda untuk mengevaluasi agen, model, atau prompt — menggunakan set data yang Anda sediakan atau yang dibuat dari dokumen maupun konteks Anda:
- "Evaluasi agen saya di
./my_agent.py" - "Bandingkan Claude Sonnet dan Nova Pro pada set data ini"
- "Uji ketiga templat prompt ini menggunakan set QA gold saya"
- "Buat set data dari PDF ini, lalu jalankan evaluasi"
Agen akan memilih mode yang tepat, membuat secara otomatis apa pun yang belum tersedia (set data, juri, kriteria), menjalankannya, membuka penampil hasil di perambah Anda, dan memberikan laporan PDF kepada Anda.