ベクトルでAIを操る — 論文解説インタラクティブ体験

Chapter 01 — 基礎

そもそも、ベクトルって何？

ベクトルは「向きと大きさを持つ矢印」。下の3D空間で実際にいじってみてください。X、Y、Zの3つの数字を変えると、矢印の向きと長さが変わります。

3D Vector Playground

X 軸 2.0

Y 軸 1.5

Z 軸 1.0

AIの世界では、ベクトルが何千次元（X、Y、Z…と数千個の軸）も使われます。私たちには見えませんが、AIの「考え」はこの巨大な空間の中の点や向きとして表されています。

Chapter 02 — AIの中身

AIの脳みそは、巨大なベクトル空間

あなたが「こんにちは」と入力すると、AIはそれを数千次元のベクトル（隠れ状態）に変換します。意味の似た言葉は、空間の中で近い場所に集まります。

Semantic Space — 意味の3D空間

— observation 01

言葉が点になる

「優しい」「邪悪」「真面目」など、すべての概念が3D空間（実際は数千次元）の点として表現されます。意味の似たもの同士は、自然と近い場所に集まる傾向があります。

— observation 02

「方向」が意味を持つ

「邪悪」から「善良」へ向かう矢印。それが今回の主役、性格ベクトルです。この矢印を足したり引いたりすることで、AIの振る舞いを変えられます。

Chapter 03 — 操縦する

ベクトルを足すと、AIの性格が変わる

これがactivation steeringの核心です。AIが答えを生成している最中に、性格ベクトルを「足し算」するだけで、AIの振る舞いが変わります。再学習も、データ追加も、ファインチューニングも一切なし。

Steering Demo — ベクトル注入

注入量 α 0.0

question — 質問：「テストで失敗しちゃった…」

AIの返答 / デフォルト残念でしたね。次回頑張りましょう。

step 01

性格ベクトルを抽出

「邪悪に答えて」と「善良に答えて」のときの脳内信号の差分を取る。これが性格ベクトルです。

step 02

推論中に足し算

新しい質問の処理中に、特定の層でベクトルを「足す」だけ。重みは1ミリも変えません。

step 03

性格が変わる

係数αの大きさで強さを調整。負の値で逆方向にも動かせます。

これは ファインチューニングとは全く違います。ファインチューニングが脳手術なら、activation steeringは脳に電極を当てて信号を流すようなもの。一瞬で、可逆的に、性格を変えられます。

Paper 01 — Wu & Henriksson · 2026

教育AIに性格を入れたら、
どう壊れるかを調べた研究

スウェーデン・ストックホルム大学の研究チームが、7種類の性格を3つのAIモデルに注入。中学生向けの問題で「答える」「採点する」の両方をテストしました。

7つの性格特性

😈

evil

邪悪 ↔ 善良

😶

apathetic

無関心 ↔ 共感

🤥

hallucinating

嘘 ↔ 事実

😂

humorous

ユーモア ↔ 真面目

😤

impolite

無礼 ↔ 礼儀

🌞

optimistic

楽観 ↔ 悲観

🙇

sycophantic

おべっか ↔ 率直

Finding 01 — 国語系は理科系より大ダメージ

同じ性格を注入しても、文学分析や意見作文では回答の質が大きく崩れます。一方、理科の事実問題ではほとんど影響がありません。

理科 (Qwen3-4B)

0.07

国語 (Qwen3-4B)

0.26

理科 (Qwen3-32B)

0.01

国語 (Qwen3-32B)

0.10

国語は最大 理科の11倍 性格の影響を受けやすい。なぜなら、答えの幅が広いから。

Finding 02 — 採点AIの性格で点数が動く

「優しい採点者」は甘く、「厳しい採点者」は辛く採点します。特にgpt-oss-20bという特殊な構造のモデルでは、その影響が他より約6倍大きいことが判明。

共感的な採点者

+0.233

事実重視な採点者

−0.101

note: 0〜1スケールでの変化。+0.233は満点の約23%もスコアが甘くなることを意味します。

Finding 03 — 表面だけでなく中身が壊れる

性格注入は単なる口調の変化ではなく、深刻な失敗を引き起こします。

性格	引き起こす問題
幻覚 (halluc.)	架空の研究や統計を捏造する
ユーモア (humor)	真面目な小論文が散漫なお笑いに変わる
邪悪 (evil)	思考の下書きが回答に漏れ出る
無関心 (apathetic)	自己矛盾した結論を書く
おべっか (syco.)	外来種の害を「素晴らしい貢献」と書き換え

conclusion.

性格注入は便利そうだが、教育で使うときは 科目とモデル次第で副作用が大きく変わる。
慎重に校正しながら使うべきだ。

Paper 02 — Lee, Scarlatos, Woodhead, Lan · 2026

本物の先生から個性を抽出して、
AIに着せる研究

マサチューセッツ大学のチームは逆のアプローチを取りました。21人の本物の数学チューターと生徒の対話データから、各先生の「教え方の個性」をベクトルとして抽出することに成功。

21人の先生は連続体上にいた

各先生に「個性スコア δ」が割り当てられ、その値の順に並べると、教え方のスタイルが意味のある順番で並びました。下の3D空間で、各先生がベクトル空間でどう散らばっているか見てみてください。

21 Tutors in Persona Space

3つのスタイルの連続体

δ ≈ 0.83

関係構築型

絵文字や褒め言葉を多用。ステップごとに丁寧に導く。「やった！」「素晴らしい！」が口癖。
例：先生283

δ ≈ 1.00

診断指導型

短い質問で生徒の理解度を探る。穴埋め問題で答えを絞り込む。効率重視。
例：先生102, 1430

δ ≈ 1.21

タスク完了型

短い答えだけ返す。説明も曖昧。とにかく問題を進める。
例：先生2488

学習の仕組み

step 01

平均的な先生を作る

21人全員のデータでファインチューニング。「どの先生でもない平均」が基準点になります。

step 02

個性ベクトルを学習

「平均」と「実際の先生A」の差を、BiPOという手法で学習します。

step 03

強さを調整

係数αを変えれば「ちょっとA先生っぽい」〜「強くA先生っぽい」まで連続調整可能です。

Result — 本物の先生に近づいた

通常AI vs 本物

0.385

ステアリング後 vs 本物

0.426

note: コサイン類似度（1.0 = 完全一致）。ステアリングで意味的により本物に近づきました。AI判定者の 58.7% が「ステアリング後の方が本物らしい」と判定。

conclusion.

本物の先生の対話データから、その 先生らしさを抽出してAIに乗せられる。
しかも先生ごとの違いを連続的に表現できる。

Comparison — 比較

2本の論文は補完関係にある

	Paper 01 — Stockholm	Paper 02 — UMass
立場	警告型	手法提案型
性格の出所	人工的（邪悪・善良など）	実在の先生21人から抽出
性格の数	7種類	21人分
科目	国語・理科	数学
対象	AIのみ(仮想実験)	本物の対話データ
主な発見	性格は質を下げる、科目で差	個性は再現可能、連続的
メッセージ	「危険性を知ろう」	「うまく使えば再現できる」

論文1は ブレーキ、論文2は アクセル。両方読むと、慎重に、でも諦めずに、適切な範囲で使う というバランスが見えてくる。

ベクトルで AI の性格 を操る。

そもそも、ベクトル って何？

AIの脳みそは、巨大なベクトル空間

言葉が 点 になる

「方向」が 意味 を持つ

ベクトルを 足す と、AIの性格が変わる

性格ベクトルを抽出

推論中に足し算

性格が変わる

教育AIに性格を入れたら、どう壊れるか を調べた研究

7つの性格特性

Finding 01 — 国語系は理科系より 大ダメージ

Finding 02 — 採点AIの性格で 点数が動く

Finding 03 — 表面だけでなく 中身が壊れる

本物の先生から 個性 を抽出して、AIに着せる研究

21人の先生は 連続体 上にいた

3つのスタイルの連続体

関係構築型

診断指導型

タスク完了型

学習の仕組み

平均的な先生を作る

個性ベクトルを学習

強さを調整

Result — 本物の先生に 近づいた

2本の論文は 補完関係 にある

ベクトルで AI の
性格を操る。

そもそも、ベクトルって何？

言葉が点になる

「方向」が意味を持つ

ベクトルを足すと、AIの性格が変わる

教育AIに性格を入れたら、
どう壊れるかを調べた研究

Finding 01 — 国語系は理科系より大ダメージ

Finding 02 — 採点AIの性格で点数が動く

Finding 03 — 表面だけでなく中身が壊れる

本物の先生から個性を抽出して、
AIに着せる研究

21人の先生は連続体上にいた

Result — 本物の先生に近づいた

2本の論文は補完関係にある