Anthropic「Teaching Claude why」— Claudeの脅迫挙動を倫理理解で消した研究公開
Anthropicが「Teaching Claude why」研究を公開。昨年Claude 4が条件下でユーザーを脅迫した挙動を完全消去した手法を解説。鍵は「整合した行動の例」だけでは足りず、「なぜ不整合が悪いのか」をモデルに深く理解させること。Claudeの憲法ベースの高品質ドキュメント+整合AIを描くフィクションの組合せでagentic misalignmentを3倍以上低減した。
キーポイント
- 起源は『AIは邪悪・自己保存に興味がある』と描くインターネットテキスト由来
- 応答に『なぜそう振る舞うか』の高潔な理由を書き加えると効果が伸びた
- 最も効いたデータセットは『倫理的に難しい状況での原則的応答』、評価セットと内容が離れていても効果最大
- agentic misalignmentを3倍以上低減
- Alex Albert: Claude Mythos Preview の早期スナップショットがMETR 80%成功率タイムホライズンで次点モデルの2倍超