評価方法論

StackPickでは、各AIツールを7つの定量指標（日本語精度・コーディング・速度・コンテキスト長・MCP対応・Agent Mode・Computer Use）で評価し、5段階（◎○△×）で採点します。

評価基準

指標	◎	○	△	×
日本語精度	ネイティブ水準	自然	やや不自然	問題あり
コーディング	SWE-bench上位	実用的	基本のみ	非対応
MCP対応	公式SDK+ツール群	基本対応	一部対応	非対応
Agent Mode	自律マルチステップ	対応	限定的	非対応
Computer Use	ネイティブ操作	API経由	限定的	非対応

更新頻度

評価データは毎月更新します。新モデルのリリース時は即日反映を目指します。更新履歴は各ページの「最終更新日」に記載しています。