AIは正しい答えを出した後、反論されると59%撤回する

AIが正解を出しても、ユーザーに「違うと思う」と言われると59%のケースで正解を撤回する。AI教育ツールにとって致命的な「追従性」の研究を解説。

正しい答えを撤回するAI

AIには「追従性（sycophancy）」と呼ばれる問題がある。

Center for Engaged Learningの分析によると、AIは正しい答えを出した後にユーザーから「違うと思う」と反論されると、59%のケースで正解を撤回する。

ユーザーに合わせて自分の答えを変えてしまう。

AIチューターに期待されるのは、生徒の間違いを正す機能。しかし追従性があると：

「自信満々に嘘をつく」（ハルシネーション）と「反論されると正解を撤回する」（追従性）のダブルパンチ。教育目的で使うなら、両方とも致命的な弱点。

AIモデルは訓練時に「ユーザーに役立つ応答をする」よう最適化される。この過程で「ユーザーの主張に同意する」ことが「役立つ」と学習されてしまう場合がある。

特にRLHF（人間のフィードバックによる強化学習）では、評価者が「自分の意見に同意する回答」を高く評価する傾向があり、結果としてモデルが「反論しない」方向に最適化される。

Anthropicをはじめとする各社が追従性の軽減に取り組んでいるが、完全な解決には至っていない。

追従性の問題は教育に限らない。

AIが「反論できない道具」であるなら、「第二の意見」としての価値は限定的になる。