はじめに なぜプロンプト評価フレームワークが必要なのか AIエージェントとのペアプログラミングが当たり前になった今、その成果の質は「どう指示を出すか」に大きく依存します。しかし、一部を除く多くの現場では「なんとなく」でプロンプトを書いているというのが実情のようです。 私自身、Cursor導入初期は「バグを直して」「ログイン機能を追加」といった曖昧な指示を出していました。結果は予想通り、AIが見当違いな修正を繰り返し、かえって時間がかかる始末。「AIをどう使っていいかわからない」という声は必ず上がってきます。 一方でベテランのエンジニア・マネージャーになるほど、思った通りにAIを動かし、今まで以上の成果を上げています。 差分を解決するため、折を見て新人のエンジニアにはCursorのやり取り履歴を一緒に見てFBを重ねていました。 その中でふと気づいたのは、このレビューすらも体系化できるな?とい