評価方法論

StackPickでは、各AIツールを7つの定量指標(日本語精度・コーディング・速度・コンテキスト長・MCP対応・Agent Mode・Computer Use)で評価し、5段階(◎○△×)で採点します。

評価基準

指標×
日本語精度ネイティブ水準自然やや不自然問題あり
コーディングSWE-bench上位実用的基本のみ非対応
MCP対応公式SDK+ツール群基本対応一部対応非対応
Agent Mode自律マルチステップ対応限定的非対応
Computer Useネイティブ操作API経由限定的非対応

更新頻度

評価データは毎月更新します。新モデルのリリース時は即日反映を目指します。 更新履歴は各ページの「最終更新日」に記載しています。