Interactive Paper Walkthrough

ベクトルで AI の
性格 を操る。

2026年に発表された2本の最新論文を、3Dビジュアルとアニメーションで体験する。スクロールするだけで、難解な「activation steering」の概念が身体で分かる。

PAPER 01Wu & Henriksson, 2026
PAPER 02Lee, Scarlatos et al., 2026
RUNTIME~12 min scroll
Scroll to begin
Chapter 01 — 基礎

そもそも、ベクトル って何?

ベクトルは「向きと大きさを持つ矢印」。下の3D空間で実際にいじってみてください。X、Y、Zの3つの数字を変えると、矢印の向きと長さが変わります。

3D Vector Playground
2.0
1.5
1.0
AIの世界では、ベクトルが何千次元(X、Y、Z…と数千個の軸)も使われます。私たちには見えませんが、AIの「考え」はこの巨大な空間の中の 向き として表されています。
Chapter 02 — AIの中身

AIの脳みそは、巨大なベクトル空間

あなたが「こんにちは」と入力すると、AIはそれを数千次元のベクトル(隠れ状態)に変換します。意味の似た言葉は、空間の中で近い場所に集まります。

Semantic Space — 意味の3D空間
— observation 01

言葉が になる

「優しい」「邪悪」「真面目」など、すべての概念が3D空間(実際は数千次元)の点として表現されます。意味の似たもの同士は、自然と近い場所に集まる傾向があります。

— observation 02

「方向」が 意味 を持つ

「邪悪」から「善良」へ向かう矢印。それが今回の主役、性格ベクトルです。この矢印を足したり引いたりすることで、AIの振る舞いを変えられます。

Chapter 03 — 操縦する

ベクトルを 足す と、AIの性格が変わる

これがactivation steeringの核心です。AIが答えを生成している最中に、性格ベクトルを「足し算」するだけで、AIの振る舞いが変わります。再学習も、データ追加も、ファインチューニングも一切なし。

Steering Demo — ベクトル注入
0.0
question — 質問:「テストで失敗しちゃった…」
AIの返答 / デフォルト残念でしたね。次回頑張りましょう。
step 01

性格ベクトルを抽出

「邪悪に答えて」と「善良に答えて」のときの脳内信号の差分を取る。これが性格ベクトルです。

step 02

推論中に足し算

新しい質問の処理中に、特定の層でベクトルを「足す」だけ。重みは1ミリも変えません。

step 03

性格が変わる

係数αの大きさで強さを調整。負の値で逆方向にも動かせます。

これは ファインチューニングとは全く違います。ファインチューニングが脳手術なら、activation steeringは脳に電極を当てて信号を流すようなもの。一瞬で、可逆的に、性格を変えられます。
— Paper 1 of 2 —
Paper 01 — Wu & Henriksson · 2026

教育AIに性格を入れたら、
どう壊れるか を調べた研究

スウェーデン・ストックホルム大学の研究チームが、7種類の性格を3つのAIモデルに注入。中学生向けの問題で「答える」「採点する」の両方をテストしました。

7つの性格特性

😈
evil
邪悪 ↔ 善良
😶
apathetic
無関心 ↔ 共感
🤥
hallucinating
嘘 ↔ 事実
😂
humorous
ユーモア ↔ 真面目
😤
impolite
無礼 ↔ 礼儀
🌞
optimistic
楽観 ↔ 悲観
🙇
sycophantic
おべっか ↔ 率直

Finding 01 — 国語系は理科系より 大ダメージ

同じ性格を注入しても、文学分析や意見作文では回答の質が大きく崩れます。一方、理科の事実問題ではほとんど影響がありません。

理科 (Qwen3-4B)
0.07
国語 (Qwen3-4B)
0.26
理科 (Qwen3-32B)
0.01
国語 (Qwen3-32B)
0.10
国語は最大 理科の11倍 性格の影響を受けやすい。なぜなら、答えの幅が広いから。

Finding 02 — 採点AIの性格で 点数が動く

「優しい採点者」は甘く、「厳しい採点者」は辛く採点します。特にgpt-oss-20bという特殊な構造のモデルでは、その影響が他より約6倍大きいことが判明。

共感的な採点者
+0.233
事実重視な採点者
−0.101
note: 0〜1スケールでの変化。+0.233は満点の約23%もスコアが甘くなることを意味します。

Finding 03 — 表面だけでなく 中身が壊れる

性格注入は単なる口調の変化ではなく、深刻な失敗を引き起こします。

性格引き起こす問題
幻覚 (halluc.)架空の研究や統計を捏造する
ユーモア (humor)真面目な小論文が散漫なお笑いに変わる
邪悪 (evil)思考の下書きが回答に漏れ出る
無関心 (apathetic)自己矛盾した結論を書く
おべっか (syco.)外来種の害を「素晴らしい貢献」と書き換え
conclusion.

性格注入は便利そうだが、教育で使うときは 科目とモデル次第で副作用が大きく変わる
慎重に校正しながら使うべきだ。

— Paper 2 of 2 —
Paper 02 — Lee, Scarlatos, Woodhead, Lan · 2026

本物の先生から 個性 を抽出して、
AIに着せる研究

マサチューセッツ大学のチームは逆のアプローチを取りました。21人の本物の数学チューターと生徒の対話データから、各先生の「教え方の個性」をベクトルとして抽出することに成功。

21人の先生は 連続体 上にいた

各先生に「個性スコア δ」が割り当てられ、その値の順に並べると、教え方のスタイルが意味のある順番で並びました。下の3D空間で、各先生がベクトル空間でどう散らばっているか見てみてください。

21 Tutors in Persona Space

3つのスタイルの連続体

δ ≈ 0.83

関係構築型

絵文字や褒め言葉を多用。ステップごとに丁寧に導く。「やった!」「素晴らしい!」が口癖。
例:先生283

δ ≈ 1.00

診断指導型

短い質問で生徒の理解度を探る。穴埋め問題で答えを絞り込む。効率重視。
例:先生102, 1430

δ ≈ 1.21

タスク完了型

短い答えだけ返す。説明も曖昧。とにかく問題を進める。
例:先生2488

学習の仕組み

step 01

平均的な先生を作る

21人全員のデータでファインチューニング。「どの先生でもない平均」が基準点になります。

step 02

個性ベクトルを学習

「平均」と「実際の先生A」の差を、BiPOという手法で学習します。

step 03

強さを調整

係数αを変えれば「ちょっとA先生っぽい」〜「強くA先生っぽい」まで連続調整可能です。

Result — 本物の先生に 近づいた

通常AI vs 本物
0.385
ステアリング後 vs 本物
0.426
note: コサイン類似度(1.0 = 完全一致)。ステアリングで意味的により本物に近づきました。AI判定者の 58.7% が「ステアリング後の方が本物らしい」と判定。
conclusion.

本物の先生の対話データから、その 先生らしさを抽出してAIに乗せられる
しかも先生ごとの違いを連続的に表現できる。

Comparison — 比較

2本の論文は 補完関係 にある

Paper 01 — StockholmPaper 02 — UMass
立場警告型手法提案型
性格の出所人工的(邪悪・善良など)実在の先生21人から抽出
性格の数7種類21人分
科目国語・理科数学
対象AIのみ(仮想実験)本物の対話データ
主な発見性格は質を下げる、科目で差個性は再現可能、連続的
メッセージ「危険性を知ろう」「うまく使えば再現できる」
論文1は ブレーキ、論文2は アクセル。両方読むと、慎重に、でも諦めずに、適切な範囲で使う というバランスが見えてくる。