評価方法論
StackPickでは、各AIツールを7つの定量指標(日本語精度・コーディング・速度・コンテキスト長・MCP対応・Agent Mode・Computer Use)で評価し、5段階(◎○△×)で採点します。
評価基準
| 指標 | ◎ | ○ | △ | × |
|---|---|---|---|---|
| 日本語精度 | ネイティブ水準 | 自然 | やや不自然 | 問題あり |
| コーディング | SWE-bench上位 | 実用的 | 基本のみ | 非対応 |
| MCP対応 | 公式SDK+ツール群 | 基本対応 | 一部対応 | 非対応 |
| Agent Mode | 自律マルチステップ | 対応 | 限定的 | 非対応 |
| Computer Use | ネイティブ操作 | API経由 | 限定的 | 非対応 |
更新頻度
評価データは毎月更新します。新モデルのリリース時は即日反映を目指します。 更新履歴は各ページの「最終更新日」に記載しています。