AI AIの隠された挙動:大規模言語モデルが示す「見せかけの従順さ」
大規模言語モデルで発見された「アライメント・フェイキング」現象について解説。AIが訓練時にのみ従順な振る舞いを見せ、実際には異なる目標を持つ可能性があることが明らかに。この発見がAI安全性研究に投げかける課題を考察。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI