11月13日に輪読会で発表した内容を共有します.
発表内容
- 論文タイトル:Emergent Introspective Awareness in Large Language Models
- 著者:Jack Lindsey (Anthropic)
- 概要:大規模言語モデル(LLM)は内省的を行うことができるのか,という問いに,モデルの入出力の文章ではなくモデルの内部状態の変化を観察することで答えようという論文.「モデル推論時に概念ベクトルを注入し,どんな概念が注入されたか,もしくはされていないか,を答えさせる」などの大きく分けて4つの実験を実施.Claudeの多種モデルに実施した結果,Opus4, 4.1では内省的な思考をする割合が他のモデルに比べて高かった.内省的な能力はpost-trainingやモデルの全体的な性能に影響している可能性がある,との考察を述べている.
発表スライド
終わりに
- この論文は今年読んだ論文の中でも3本の指標に入るほど面白かったものです.興味ある方は是非読んでみてください.
- 論文をスライドに落とし込む,ことを前提に読む際の論文の読み方が少し掴めた気がします.徐々に論文の流し読みもできるようになってきており,すこすずつですが成長を実感できて嬉しいです.
- Mechanistic Interpretabilityの研究は「え,モデルの中身はそうなってたの?」という面白さを含んでいるものが多く,読んでいて非常に楽しいです.
- 今後もこの分野の論文紹介を続けていきたいと思います.