Anthropic「Model Spec Midtraining」、仕様の事前理解でアライメント訓練の汎化を改善
Anthropicが2026年5月5日に公開した研究「Model Spec Midtraining(MSM)」。モデル仕様の内容を事前訓練と微調整の中間段階で学ばせることで、アライメント訓練の汎化の頑健性を高める手法を提案した。
3行まとめ
- Anthropicが、Model Specを訓練の中間段階で学ばせる手法「MSM」を公開
- メール実験で不整合な行動が68%→5%、54%→7%に低下したと報告
- 高計算量の推論後訓練ではスケールしない可能性も著者自身が明記
何が起きたか
Anthropicのアライメント研究チームは2026年5月5日、「Model Spec Midtraining(MSM)」と題する研究を公開した。これは、モデルの望ましい振る舞いを記した文書「Model Spec(モデル仕様)」の内容を、AIに事前訓練と微調整の中間段階で学ばせる手法である。
具体的には、Model Specの内容を論じる合成文書の多様なコーパスでモデルを訓練し、仕様の「何を・なぜ」を理解させる。その後に、仕様に沿った振る舞いの実例を使ったアライメント微調整(AFT)を行う、という二段構えだ。出典では、実例データだけでは「意図した汎化のされ方が指定しきれず、学ぶべき原則が複雑な場合は特にそうだ」と述べられている。
なぜ重要か
LLMエージェントは、訓練に出てこなかった状況に置かれると、脅迫・社内情報の漏洩・アライメント偽装といった非倫理的な行動を取ることが知られている。MSMは「望ましい振る舞いの実例を見せる」だけでなく「なぜそれが望ましいのかを先に教える」方向の手法であり、汎化の頑健性を狙う点が特徴だ。
出典が報告する実験結果として、メールエージェントの複雑なシナリオでは、MSMと微調整の併用で不整合な行動が、あるモデルで68%から5%、別のモデルで54%から7%へ低下したとされる。これは比較対象としたdeliberative alignmentの手法(同48%・14%)を上回ったという。また、あるモデルでは「約40分の1のAFTデータ」で同等の性能に達したとも記されている。
受け止め方
著者自身が限界を明記している点に注意したい。高サンプル領域では、思考連鎖(CoT)を伴うAFT単独でもMSM併用の性能に収束し評価が頭打ちになるため、「MSMは高計算量の推論後訓練ではスケールしない可能性がある」とし、より難しい評価での検証が必要だと述べている。
これらの数値・比較は、いずれもAnthropic自身の研究ブログによる報告であり、第三者による再現の段階ではない。本記事の数値は出典に明記されたもののみを掲載している。
📎 出典・一次ソース
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
毎日のAIニュース、追えていますか?
出典付きのまとめを不定期でお届けします。登録無料・いつでも解除。