2026年に発表された2本の最新論文を、3Dビジュアルとアニメーションで体験する。スクロールするだけで、難解な「activation steering」の概念が身体で分かる。
ベクトルは「向きと大きさを持つ矢印」。下の3D空間で実際にいじってみてください。X、Y、Zの3つの数字を変えると、矢印の向きと長さが変わります。
あなたが「こんにちは」と入力すると、AIはそれを数千次元のベクトル(隠れ状態)に変換します。意味の似た言葉は、空間の中で近い場所に集まります。
「優しい」「邪悪」「真面目」など、すべての概念が3D空間(実際は数千次元)の点として表現されます。意味の似たもの同士は、自然と近い場所に集まる傾向があります。
「邪悪」から「善良」へ向かう矢印。それが今回の主役、性格ベクトルです。この矢印を足したり引いたりすることで、AIの振る舞いを変えられます。
これがactivation steeringの核心です。AIが答えを生成している最中に、性格ベクトルを「足し算」するだけで、AIの振る舞いが変わります。再学習も、データ追加も、ファインチューニングも一切なし。
「邪悪に答えて」と「善良に答えて」のときの脳内信号の差分を取る。これが性格ベクトルです。
新しい質問の処理中に、特定の層でベクトルを「足す」だけ。重みは1ミリも変えません。
係数αの大きさで強さを調整。負の値で逆方向にも動かせます。
スウェーデン・ストックホルム大学の研究チームが、7種類の性格を3つのAIモデルに注入。中学生向けの問題で「答える」「採点する」の両方をテストしました。
同じ性格を注入しても、文学分析や意見作文では回答の質が大きく崩れます。一方、理科の事実問題ではほとんど影響がありません。
「優しい採点者」は甘く、「厳しい採点者」は辛く採点します。特にgpt-oss-20bという特殊な構造のモデルでは、その影響が他より約6倍大きいことが判明。
性格注入は単なる口調の変化ではなく、深刻な失敗を引き起こします。
| 性格 | 引き起こす問題 |
|---|---|
| 幻覚 (halluc.) | 架空の研究や統計を捏造する |
| ユーモア (humor) | 真面目な小論文が散漫なお笑いに変わる |
| 邪悪 (evil) | 思考の下書きが回答に漏れ出る |
| 無関心 (apathetic) | 自己矛盾した結論を書く |
| おべっか (syco.) | 外来種の害を「素晴らしい貢献」と書き換え |
性格注入は便利そうだが、教育で使うときは 科目とモデル次第で副作用が大きく変わる。
慎重に校正しながら使うべきだ。
マサチューセッツ大学のチームは逆のアプローチを取りました。21人の本物の数学チューターと生徒の対話データから、各先生の「教え方の個性」をベクトルとして抽出することに成功。
各先生に「個性スコア δ」が割り当てられ、その値の順に並べると、教え方のスタイルが意味のある順番で並びました。下の3D空間で、各先生がベクトル空間でどう散らばっているか見てみてください。
絵文字や褒め言葉を多用。ステップごとに丁寧に導く。「やった!」「素晴らしい!」が口癖。
例:先生283
短い質問で生徒の理解度を探る。穴埋め問題で答えを絞り込む。効率重視。
例:先生102, 1430
短い答えだけ返す。説明も曖昧。とにかく問題を進める。
例:先生2488
21人全員のデータでファインチューニング。「どの先生でもない平均」が基準点になります。
「平均」と「実際の先生A」の差を、BiPOという手法で学習します。
係数αを変えれば「ちょっとA先生っぽい」〜「強くA先生っぽい」まで連続調整可能です。
本物の先生の対話データから、その 先生らしさを抽出してAIに乗せられる。
しかも先生ごとの違いを連続的に表現できる。
| Paper 01 — Stockholm | Paper 02 — UMass | |
|---|---|---|
| 立場 | 警告型 | 手法提案型 |
| 性格の出所 | 人工的(邪悪・善良など) | 実在の先生21人から抽出 |
| 性格の数 | 7種類 | 21人分 |
| 科目 | 国語・理科 | 数学 |
| 対象 | AIのみ(仮想実験) | 本物の対話データ |
| 主な発見 | 性格は質を下げる、科目で差 | 個性は再現可能、連続的 |
| メッセージ | 「危険性を知ろう」 | 「うまく使えば再現できる」 |