インストール手順
前提条件
- Bedrock モデルアクセスを持つ AWS 認証情報
uvinstalled- Claude Code、Cursor、Kiro、VS Code、または MCP 互換 IDE
インストール
IDE を選択して貼り付け / クリックしてください。
Claude Code – 1 つの CLI コマンド:
claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp
Cursor – ワンクリックディープリンク: Cursor に eval-mcp をインストール
Kiro – ~/.kiro/settings/mcp.json に追加:
{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }
Codex CLI – ~/.codex/config.toml に追加し、Codex を再起動:
[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]
VS Code (GitHub Copilot MCP を使用) – 1 つの CLI コマンド:
code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'
コーディングエージェントを使用してインストールする場合は、INSTALL.md をポイントしてください – 設定の編集と、オプションの S3 チーム共有に関する確認を処理します。
アップグレード中
uvx はパッケージごとに解決済みのバージョンをキャッシュします。新しいリリースをプルするには、キャッシュを無効化してください:
uv cache clean llm-evaluation-system
その後、IDE を再起動します。次回の起動時に、最新の公開バージョンが解決され、キャッシュされます。
使用
提供されたデータセット、またはドキュメントやコンテキストから生成されたデータセットを使用して、エージェント、モデル、プロンプトを評価するよう、AI アシスタントに指示します:
- 「Evaluate my agent at
./my_agent.py」 - 「Compare Claude Sonnet vs Nova Pro on this dataset」
- 「Test these three prompt templates against my golden QA set」
- 「Generate a dataset from this PDF and run an eval」
エージェントは適切なモードを選択し、不足している情報 (データセット、評価者、基準) を自動生成して実行し、ブラウザで結果ビューアを開き、PDF レポートを提供します。