Appendix 5: 情報幾何学における双対構造:2種類のまっすぐ
本Appendixの位置づけ
本Appendixは、講義本編(特に第4回「分類の再統一 I ~Softmaxと情報幾何学~」)の発展的内容として、Softmaxの背後にある情報幾何学の双対構造を掘り下げるものである。
第4回では、Softmaxを確率多様体上の写像として読み直し、自然勾配やFisher情報行列との関係を整理した。本Appendixではその議論をさらに進め、確率分布の空間に存在する 2種類の「まっすぐ」(e-接続とm-接続) を導入し、それらが連続的なパラメータ
Appendix 4(空間の「物差し」再考)で導入したKLダイバージェンスやFisher情報行列は、本Appendixの双対平坦空間において Bregmanダイバージェンスやピタゴラスの定理 として統一的に理解される。両Appendixを併せて読むことで、「距離の非対称性」と「まっすぐの非一意性」が同じ幾何学的構造の異なる側面であることが見えてくる。
情報幾何学の最も深い洞察の一つは、確率分布の空間には 2種類の「まっすぐ」 が存在するということである。これは通常のユークリッド空間では区別されないが、確率空間の本質的な非対称性を反映している。 確率の世界は平らではなく「歪んでいる」ため、普通の定規では測れない。 そこで「定規」の代わりに「接続」という道具を導入する
e-接続とm-接続
接続(connection) とは、多様体上でベクトルを「平行移動」する方法を定める構造である。通常のユークリッド空間では一意だが、曲がった空間では複数の「まっすぐ」の定義がありうる。
情報幾何学では、Fisher計量と整合的な2つの接続が特に重要である:
| 接続 | 名称 | 測地線の特徴 | 自然なパラメータ空間 |
|---|---|---|---|
| e-接続 | 指数接続 (exponential connection) | 指数型分布族で直線 | 自然パラメータ |
| m-接続 | 混合接続 (mixture connection) | 凸結合(混合分布)で直線 | 期待値パラメータ |
これらは 双対アフィン接続(dual affine connections) または単に 双対接続 (dual connections) と呼ばれ、Fisher計量に関して互いに双対である。
e-接続における測地線: 指数型分布族
Softmaxで言えば、商空間
m-接続における測地線: 一方、確率分布の凸結合(混合分布):
これは m-接続の測地線となる。カテゴリカル分布の場合、期待値パラメータ
NOTE
「2種類のまっすぐ」の直感:
- e-接続(指数):「掛け算の世界」での直線。確率の対数(ロジット)を線形補間すると、指数をとって戻したとき e-測地線になる。
- m-接続(混合):「足し算の世界」での直線。確率そのものを線形補間すると m-測地線になる。
これら2つは、空間の「曲がり方」の異なる2つの見方を提供する。どちらが「正しい」のではなく、両方が情報幾何学の対称的な構造を構成する。
略称としての「双対接続」
情報幾何学では、確率分布族(確率多様体)上で推論や座標変換を扱うために、ベクトルの共変微分・平行移動・自己平行曲線を定めるアフィン接続を導入するのが基本となる。 この文脈で単に「双対接続」と言う場合、多くは Fisher計量
CAUTION
厳密には「双対接続」は「接続同士が双対である」という 関係(ペア) を表す言葉であり、単独の接続を指すというより「一方を与えると他方が定まる(あるいは組として扱う)」という含意を持つ。
なぜ「アフィン」なのか
「アフィン接続」が重要なのは、曲がった空間において以下の要素を一貫して定義できるからだ。
- ベクトルをどう微分するか(共変微分)
- ベクトルをどう運ぶか(平行移動)
- 何を「真っ直ぐ」とみなすか(自己平行曲線)
ここでいう「真っ直ぐ」は、距離最短(計量に基づく最短曲線)という意味に限定されない。接続が定める自己平行曲線(auto-parallel)という意味での「測地線」を含む。
この枠組みがあることで初めて、曲率がゼロかどうか(平坦性)を厳密に定義でき、情報幾何で本質的な e-flat / m-flat(ある接続に関して平坦)といった性質が議論可能になる。
「アフィンではない幾何」との対比
構造を弱めたり、同値類として扱ったりする幾何学には以下のようなものがある。
- 共形幾何:角度(あるいは計量のスケールを除いた情報)を中心に扱い、長さのスケールは同一視する。
- 射影幾何:曲線の「軌跡」を中心に扱い、パラメータ付け(どの速度で進むか等)は同一視する。
一方、情報幾何では推論操作と整合する形で、確率多様体上の「直線的」な構成を扱いたいことが多い。具体的には、
- 指数族では、自然パラメータ
の空間でのアフィン結合(直線)が e-側の幾何に対応する。 - 混合族(mixture)では、期待パラメータ
の空間でのアフィン結合(直線)が m-側の幾何に対応する。
このように「どの座標で直線(アフィン結合)になるか」が、統計的な推論上の意味と直結している。 この「直線性」を、単なる軌跡だけでなくパラメータ付けも含めて扱えること、そしてそれを Fisher 計量と整合する双対な接続の組として定式化できること。これが、情報幾何で「(双対)アフィン接続」という表現が中心となる理由である。
-接続:2つの「まっすぐ」を繋ぐ連続パラメータ
e-接続とm-接続は、実は 連続的なパラメータ
-接続の定義
統計多様体
ここで
このテンソル
| 接続 | 性質 | |
|---|---|---|
| e-接続 | 指数型分布族で平坦 | |
| Levi-Civita接続 | 計量と捩率の両立(後述) | |
| m-接続 | 混合分布族で平坦 |
そして、
この双対性こそが、e-接続(
NOTE
alpha-接続の直感:「まっすぐ」のスペクトル
:ロジット空間での直線(掛け算=指数の世界) :通常のリーマン幾何学的な測地線(局所的に長さを停留させる曲線) :確率空間での直線(足し算=混合の世界)
パラメータ
Levi-Civita接続( )の位置づけ
- 計量整合性(metric compatibility):平行移動でベクトルの内積(長さ・角度)が保たれる。
- 捩率なし(torsion-free):平行移動の「ねじれ」が存在しない。
この2条件を同時に満たす接続は、与えられた計量に対して唯一つしか存在しない(リーマン幾何学の基本定理)。つまり、Levi-Civita接続は 「長さを変えない、最も素直なまっすぐ」 を定める接続であり、その測地線は 局所的に距離を停留(極値化)する曲線 を与える。
CAUTION
リーマン幾何学において測地線は変分原理——経路の長さを微小に変化させたとき増減しない(停留する)という条件——で定義される局所的な性質であり、大域的な最短経路を保証するものではない。 例えば球面上の対蹠点(地球で言えば北極と南極)は無数の測地線(大円)で結ばれ、いずれも局所的には「まっすぐ」だが、大域的に最短なものは一意に定まらない。ただし十分に近い2点間では、測地線は最短距離を与える。
NOTE
Levi-Civitaの馴染み深さ:
地球の大円航路(2都市間の最短飛行経路)は、球面上のLevi-Civita接続の測地線である。一般相対論——重力を「時空の曲がり」として記述するアインシュタインの理論——で光や質点が曲がった時空を進む経路(測地線方程式)も、時空計量に関するLevi-Civita接続によって決まる。物理学で「直線的に進む」と言うとき、ほぼ常にこの接続が暗黙に使われている。
計量整合性と双対性のトレードオフ
ただし、これは「欠点」ではなく 双対性の帰結 として理解すべきである。
情報幾何学において主役を演じるのは、この双対性の方である。そして、計量整合性を手放した代わりに得られるのが、次項で述べる 平坦性 という極めて強力な構造である。
なぜ情報幾何では alpha=±1 なのか
リーマン幾何学の立場から見れば、Levi-Civita接続(
その理由は、統計多様体上では Levi-Civita接続は一般に平坦にならない からである。
指数型分布族の空間にFisher計量を入れてLevi-Civita接続を計算すると、一般に曲率はゼロにならない(空間は曲がっている)。つまり、Levi-Civita接続の世界では、確率分布の空間に大域的な「まっすぐな座標系」を入れることができない。
一方、e-接続(
この対比を表にまとめる:
| 接続 | 計量整合性 | 平坦性 | 大域的な直線座標 |
|---|---|---|---|
| Levi-Civita( | 保存する(自己双対) | 一般に曲がる | 存在しない |
| e-接続( | 保存しない(双対性を優先) | 平坦 | |
| m-接続( | 保存しない(双対性を優先) | 平坦 |
情報幾何学における根本的なトレードオフがここにある。長さを保つ接続は空間を平坦にできず、空間を平坦にする接続は長さを保てない。 統計的推論や機械学習の文脈では、「空間が平坦であること」は決定的に重要である。平坦であれば線形代数が使え、射影や最適化が明快になるからである。
IMPORTANT
Softmaxの構造を見るために:
Softmaxが「自然な」変換であること——すなわち、自然パラメータ
「長さを変えない素直なまっすぐ」を手放すことで、確率空間の最も美しい構造——2つの平坦座標系とそれを結ぶSoftmax——が姿を現すのである。
双対平坦空間
指数型分布族が持つ最も美しい性質の一つが 双対平坦性(dually flat) である。
通常の多様体は一般に曲がっているが、適切な正則性条件を満たす指数型分布族の空間は:
- e-接続に関して平坦(e-flat):自然パラメータ
を座標とすると、e-測地線は直線となり、接続の曲率は0。 - m-接続に関して平坦(m-flat):期待値パラメータ
を座標とすると、m-測地線は直線となり、接続の曲率は0。
この2つの平坦性が 同時に成り立つ 空間を 双対平坦空間(dually flat space) と呼ぶ。
CAUTION
ここでの議論は、指数型分布族が 正則(regular) かつ 最小表現(minimal representation) である場合を前提としている。正則性は
| 座標系 | 接続 | 測地線の表現 | Softmaxでの対応 |
|---|---|---|---|
| 自然パラメータ | e-平坦 | 商空間 | |
| 期待値パラメータ | m-平坦 | 確率単体 |
これら2つのパラメータは、ルジャンドル変換で結ばれている:
ここで
ルジャンドル変換の幾何学的意味
ルジャンドル変換は、数式上は単なる変数の交換に見えるが、幾何学的には 「曲線を点の軌跡として見るか、接線の包絡線として見るか」 という視点の転換を意味する。
凸関数
- 点の集合として:各点
における高さ を指定する。 - 接線の集合として:各点における接線の「傾き
」と「切片 」を指定する。
切片の符号反転を新しい関数
NOTE
Softmaxにおけるルジャンドル変換の具体例:
Softmaxの文脈では、この変換は LogSumExp関数 と 負のエントロピー の間の双対性として現れる。
主ポテンシャル(対数分配関数):
この勾配をとると、期待値パラメータ(確率)が得られる:
双対ポテンシャル(負のエントロピー): ルジャンドル変換によって得られる双対関数
この勾配
Softmax(LogSumExpの勾配)と負のエントロピー(その双対関数の勾配)は、まさに「同じ曲線を点から見るか接線から見るか」の関係にある。
物理学とのアナロジー
ルジャンドル変換は、物理学の複数の分野で本質的な役割を果たす。情報幾何学の双対構造は、これらの物理的構造と数学的な対応関係を持ち、単なる表面的なアナロジーを超えた共通の原理——「凸関数の双対性」——に根ざしている。以下では物理学の予備知識がなくても読めるよう、概念の簡単な説明を添える。
解析力学:古典力学(ニュートン力学)を再定式化した理論体系である。物体の運動を記述する方法には2つの流儀がある。ラグランジアン
NOTE
「一般化速度」「一般化運動量」の「一般化」とは、直線運動だけでなく回転や振動など任意の座標系に拡張されていることを意味する。例えば振り子なら、角度の変化率が一般化速度、角運動量が一般化運動量に対応する。
| 解析力学 | 情報幾何(Softmax) |
|---|---|
| 一般化速度 | ロジット |
| 一般化運動量 | 確率 |
| ラグランジアン | 対数分配関数 |
| ハミルトニアン | 負のエントロピー |
熱力学:熱や仕事とエネルギーの関係を扱う物理学の一分野である。熱力学の量は2種類に大別される。強度量(温度
この視点に立てば、Softmax関数は 「ロジットという速度を確率という運動量に変換する操作」 と見なせる。解析力学では、速度と運動量の両方を座標軸にとった空間を 相空間 と呼び、その上での変数の切り替え(正準変換)が力学の核心的な構造である。情報幾何学におけるSoftmaxは、ルジャンドル変換が果たす役割という点で、この正準変換に似た構造を持っている。
NOTE
解析力学の正準変換はシンプレクティック構造(位相空間の面積を保存する構造)を保つ変換として厳密に定義される。情報幾何学のルジャンドル双対もそれに似た「生成関数」的構造を持つが、シンプレクティック構造そのものを導入しているわけではない。ここでの対応は、両者が「凸関数のルジャンドル変換」という共通の数学的枠組みに乗っている、という意味である。
Softmaxとの関係: カテゴリカル分布において:
- 自然パラメータ = ロジット
(商空間 として) - 期待値パラメータ = 確率
(より正確には、指示関数の期待値) - Softmax = ルジャンドル変換の勾配写像
ここで
逆向き(ロジットの代表元の復元)は
Softmaxの背後には、この双対平坦構造が隠れている。Softmaxが「自然な」変換であるのは、指数型分布族の双対構造が要請する勾配写像だからである。
IMPORTANT
なぜ双対平坦性が重要か:
- KLダイバージェンスの構造:双対平坦空間では、KLダイバージェンスが Bregmanダイバージェンス として表現され、ピタゴラスの定理 の一般化(三平方分解)が成り立つ。これにより、e-射影(最尤推定)やm-射影(モーメント法)といった 情報射影(information projection) が幾何学的に理解できる。
- 自然勾配の座標不変性:自然勾配は、Fisher計量に関して 座標系によらず最急降下 を実現する。指数型分布族では自然パラメータと期待値パラメータの間の変換が簡潔であり、Fisher情報行列が扱いやすい構造を持つ(ただし制約により特異になることもあり、例えば、カテゴリカル分布で確率
を座標に取ると Fisher は の形を持ち、単体制約のもとで低次元化や擬似逆を使って効率的に計算できる)。 - パラメータ表現の指針:機械学習において「どのパラメータ表現を使うか」は性能に影響する。双対平坦構造は、この選択に対する理論的な指針を与える。特に、損失関数と整合する座標系(自然パラメータか期待値パラメータか)を選ぶことで、最適化が効率化される。
講義本編との接続まとめ
| 講義回 | 接続点 |
|---|---|
| 第0回(幾何学という言語) | 接続・測地線・曲率の基本概念。本Appendixの |
| 第4回(Softmaxと情報幾何学) | Softmax=ルジャンドル変換の勾配写像。双対平坦構造が自然勾配・Fisher情報行列の背景を与える |
| 第5回(マージンの幾何学) | e-測地線(ロジット空間の直線)上での分離が、角度マージンの議論と接続する |
| 第9回(拡散と凝縮) | スコア関数 |
| 第12回(双曲幾何学) | 負の曲率空間は双対平坦ではないが、指数写像と対数写像の関係に類似の双対性が現れる |
| Appendix 4(物差し再考) | KLダイバージェンスの非対称性が、e/m接続の双対性として幾何学的に説明される |