
Steering at the Source: Style Modulation Heads for Robust Persona Control
Yoshihiro Izawa, Gouki Minegishi, Koshi Eguchi, Sosuke Hosokawa, Kenjiro Taura
First AuthorICLR 2026 Workshop
東京大学大学院 情報理工学系研究科 修士1年
山肩研究室
Mechanistic Interpretability
大規模言語モデル(LLM)の内部メカニズムを解明するMechanistic Interpretabilityを主な研究分野としています。Activation Steeringなど、モデルの解釈可能性と制御性の向上に取り組んでいます。

Yoshihiro Izawa, Gouki Minegishi, Koshi Eguchi, Sosuke Hosokawa, Kenjiro Taura
Coming Soon...