Skip to content
Appendix 5: 情報幾何学における双対構造:2種類のまっすぐ

Appendix 5: 情報幾何学における双対構造:2種類のまっすぐ

本Appendixの位置づけ

本Appendixは、講義本編(特に第4回「分類の再統一 I ~Softmaxと情報幾何学~」)の発展的内容として、Softmaxの背後にある情報幾何学の双対構造を掘り下げるものである。

第4回では、Softmaxを確率多様体上の写像として読み直し、自然勾配やFisher情報行列との関係を整理した。本Appendixではその議論をさらに進め、確率分布の空間に存在する 2種類の「まっすぐ」(e-接続とm-接続) を導入し、それらが連続的なパラメータ α を持つ接続族の両端であることを示す。

Appendix 4(空間の「物差し」再考)で導入したKLダイバージェンスやFisher情報行列は、本Appendixの双対平坦空間において Bregmanダイバージェンスやピタゴラスの定理 として統一的に理解される。両Appendixを併せて読むことで、「距離の非対称性」と「まっすぐの非一意性」が同じ幾何学的構造の異なる側面であることが見えてくる。

情報幾何学の最も深い洞察の一つは、確率分布の空間には 2種類の「まっすぐ」 が存在するということである。これは通常のユークリッド空間では区別されないが、確率空間の本質的な非対称性を反映している。 確率の世界は平らではなく「歪んでいる」ため、普通の定規では測れない。 そこで「定規」の代わりに「接続」という道具を導入する

e-接続とm-接続

接続(connection) とは、多様体上でベクトルを「平行移動」する方法を定める構造である。通常のユークリッド空間では一意だが、曲がった空間では複数の「まっすぐ」の定義がありうる。

情報幾何学では、Fisher計量と整合的な2つの接続が特に重要である:

接続名称測地線の特徴自然なパラメータ空間
e-接続指数接続
(exponential connection)
指数型分布族で直線自然パラメータ θ
m-接続混合接続
(mixture connection)
凸結合(混合分布)で直線期待値パラメータ η

これらは 双対アフィン接続(dual affine connections) または単に 双対接続 (dual connections) と呼ばれ、Fisher計量に関して互いに双対である。

e-接続における測地線: 指数型分布族 p(x;θ)=exp(θt(x)ψ(θ)) において、自然パラメータ θ を線形補間すると、それは e-接続の測地線となる:

pt(x)=exp(θ(t)t(x)ψ(θ(t))),θ(t)=(1t)θ0+tθ1

Softmaxで言えば、商空間 RK/R1 上での直線(あるいはゲージ固定したロジット座標での直線)が、e-接続の測地線に対応する。前述の通り、Softmaxは 1 方向の平行移動に不変であるため、e-測地線も実質的にこの商空間上で定義される。

m-接続における測地線: 一方、確率分布の凸結合(混合分布):

pt(x)=(1t)p0(x)+tp1(x)

これは m-接続の測地線となる。カテゴリカル分布の場合、期待値パラメータ η は確率 p そのものに対応するため、確率単体 ΔK1 をユークリッド空間の部分集合と見たときの通常の直線が、この測地線に対応する。

NOTE

「2種類のまっすぐ」の直感:

  • e-接続(指数):「掛け算の世界」での直線。確率の対数(ロジット)を線形補間すると、指数をとって戻したとき e-測地線になる。
  • m-接続(混合):「足し算の世界」での直線。確率そのものを線形補間すると m-測地線になる。

これら2つは、空間の「曲がり方」の異なる2つの見方を提供する。どちらが「正しい」のではなく、両方が情報幾何学の対称的な構造を構成する。

略称としての「双対接続」

情報幾何学では、確率分布族(確率多様体)上で推論や座標変換を扱うために、ベクトルの共変微分平行移動自己平行曲線を定めるアフィン接続を導入するのが基本となる。 この文脈で単に「双対接続」と言う場合、多くは Fisher計量 g に関して双対な 2つのアフィン接続 (代表例:e-接続と m-接続、あるいは一般の α -接続に対する ±α の組)を指す。

CAUTION

厳密には「双対接続」は「接続同士が双対である」という 関係(ペア) を表す言葉であり、単独の接続を指すというより「一方を与えると他方が定まる(あるいは組として扱う)」という含意を持つ。

なぜ「アフィン」なのか

「アフィン接続」が重要なのは、曲がった空間において以下の要素を一貫して定義できるからだ。

  • ベクトルをどう微分するか(共変微分)
  • ベクトルをどう運ぶか(平行移動)
  • 何を「真っ直ぐ」とみなすか(自己平行曲線)

ここでいう「真っ直ぐ」は、距離最短(計量に基づく最短曲線)という意味に限定されない。接続が定める自己平行曲線(auto-parallel)という意味での「測地線」を含む。

この枠組みがあることで初めて、曲率がゼロかどうか(平坦性)を厳密に定義でき、情報幾何で本質的な e-flat / m-flat(ある接続に関して平坦)といった性質が議論可能になる。

「アフィンではない幾何」との対比

構造を弱めたり、同値類として扱ったりする幾何学には以下のようなものがある。

  • 共形幾何:角度(あるいは計量のスケールを除いた情報)を中心に扱い、長さのスケールは同一視する。
  • 射影幾何:曲線の「軌跡」を中心に扱い、パラメータ付け(どの速度で進むか等)は同一視する。

一方、情報幾何では推論操作と整合する形で、確率多様体上の「直線的」な構成を扱いたいことが多い。具体的には、

  • 指数族では、自然パラメータ θ の空間でのアフィン結合(直線)が e-側の幾何に対応する。
  • 混合族(mixture)では、期待パラメータ η の空間でのアフィン結合(直線)が m-側の幾何に対応する。

このように「どの座標で直線(アフィン結合)になるか」が、統計的な推論上の意味と直結している。 この「直線性」を、単なる軌跡だけでなくパラメータ付けも含めて扱えること、そしてそれを Fisher 計量と整合する双対な接続の組として定式化できること。これが、情報幾何で「(双対)アフィン接続」という表現が中心となる理由である。

α -接続:2つの「まっすぐ」を繋ぐ連続パラメータ

e-接続とm-接続は、実は 連続的なパラメータ α を持つ接続族の両端 に位置する特殊な場合である。ここでは、そのパラメータ α の全体像を見ることで、e/m接続の位置づけをより明確にする。

α -接続の定義

統計多様体 S 上の α -接続 (α) は、実数パラメータ αR によって連続的にパラメトライズされる接続の族である。Fisher計量 gAmariの α -接続 の関係は、以下の式で定められる:

(α)=(0)+α2T

ここで (0) はFisher計量に関するLevi-Civita接続、 T は統計多様体の3次テンソル(スキューネス・テンソル、あるいは立方形式とも呼ばれる)である。

このテンソル T は、確率分布の対数尤度の3次微分から構成される量であり、統計多様体がユークリッド空間とは異なる「歪み」を持つことを反映している。 T=0 であれば全ての α -接続は一致するが、一般の統計多様体では T0 であるため、 α の値に応じて異なる「まっすぐ」が生じる。

α -接続族のうち、特別な3つの値が重要な役割を果たす:

α接続性質
+1e-接続 (1)指数型分布族で平坦
0Levi-Civita接続 (0)計量と捩率の両立(後述)
1m-接続 (1)混合分布族で平坦

そして、 α -接続と (α) -接続は、Fisher計量 g に関して常に 双対関係 にある。つまり、任意のベクトル場 X,Y,Z に対して:

Xg(Y,Z)=g(X(α)Y,Z)+g(Y,X(α)Z)

この双対性こそが、e-接続( α=+1 )とm-接続( α=1 )が対をなす理由であり、 α=0 のLevi-Civita接続が 自己双対(自分自身と双対) であることも意味している。

NOTE

alpha-接続の直感:「まっすぐ」のスペクトル

α -接続は、「掛け算の世界」( α=+1 )と「足し算の世界」( α=1 )の間を連続的に補間する「まっすぐ」のスペクトルである。

  • α=+1 :ロジット空間での直線(掛け算=指数の世界)
  • α=0 :通常のリーマン幾何学的な測地線(局所的に長さを停留させる曲線)
  • α=1 :確率空間での直線(足し算=混合の世界)

パラメータ α+1 から 1 へ連続的に動かすと、「まっすぐ」の定義がロジット空間での直線から確率空間での直線へと滑らかに変形していく。

Levi-Civita接続( α=0 )の位置づけ

α=0 に位置するLevi-Civita接続は、リーマン幾何学において最も標準的な接続であり、一般相対論やリーマン幾何学の教科書で単に「接続」と言えばこれを指す。Levi-Civita接続は、以下の2つの条件で一意に定まる:

  1. 計量整合性(metric compatibility):平行移動でベクトルの内積(長さ・角度)が保たれる。
  2. 捩率なし(torsion-free):平行移動の「ねじれ」が存在しない。

この2条件を同時に満たす接続は、与えられた計量に対して唯一つしか存在しない(リーマン幾何学の基本定理)。つまり、Levi-Civita接続は 「長さを変えない、最も素直なまっすぐ」 を定める接続であり、その測地線は 局所的に距離を停留(極値化)する曲線 を与える。

CAUTION

リーマン幾何学において測地線は変分原理——経路の長さを微小に変化させたとき増減しない(停留する)という条件——で定義される局所的な性質であり、大域的な最短経路を保証するものではない。 例えば球面上の対蹠点(地球で言えば北極と南極)は無数の測地線(大円)で結ばれ、いずれも局所的には「まっすぐ」だが、大域的に最短なものは一意に定まらない。ただし十分に近い2点間では、測地線は最短距離を与える。

NOTE

Levi-Civitaの馴染み深さ:

地球の大円航路(2都市間の最短飛行経路)は、球面上のLevi-Civita接続の測地線である。一般相対論——重力を「時空の曲がり」として記述するアインシュタインの理論——で光や質点が曲がった時空を進む経路(測地線方程式)も、時空計量に関するLevi-Civita接続によって決まる。物理学で「直線的に進む」と言うとき、ほぼ常にこの接続が暗黙に使われている。

計量整合性と双対性のトレードオフ

α -接続のうち α0 の接続は、一般に 計量整合的でない。つまり、e-接続やm-接続に沿ってベクトルを平行移動すると、内積(長さ)が変化しうる。

ただし、これは「欠点」ではなく 双対性の帰結 として理解すべきである。 α -接続は計量整合性を手放す代わりに、 αα の間の双対性を満たす。 α -接続の双対性の枠組みで見ると、自己双対( α=α 、すなわち α=0 )となる接続がちょうどLevi-Civita接続に対応する。これが唯一の点であるため、Levi-Civita接続だけが計量整合性と双対性を同時に満たすことができる。

情報幾何学において主役を演じるのは、この双対性の方である。そして、計量整合性を手放した代わりに得られるのが、次項で述べる 平坦性 という極めて強力な構造である。

なぜ情報幾何では alpha=±1 なのか

リーマン幾何学の立場から見れば、Levi-Civita接続( α=0 )こそが最も自然で「正統な」選択に思える。では、なぜ情報幾何学はわざわざ α=±1 を好むのか。

その理由は、統計多様体上では Levi-Civita接続は一般に平坦にならない からである。

指数型分布族の空間にFisher計量を入れてLevi-Civita接続を計算すると、一般に曲率はゼロにならない(空間は曲がっている)。つまり、Levi-Civita接続の世界では、確率分布の空間に大域的な「まっすぐな座標系」を入れることができない。

一方、e-接続( α=+1 )では:自然パラメータ θ を使うと 曲率がゼロ(e-平坦)。 m-接続( α=1 )では:期待値パラメータ η を使うと 曲率がゼロ(m-平坦)。

この対比を表にまとめる:

接続計量整合性平坦性大域的な直線座標
Levi-Civita( α=0保存する(自己双対)一般に曲がる存在しない
e-接続( α=+1保存しない(双対性を優先)平坦θ (自然パラメータ)
m-接続( α=1保存しない(双対性を優先)平坦η (期待値パラメータ)

情報幾何学における根本的なトレードオフがここにある。長さを保つ接続は空間を平坦にできず、空間を平坦にする接続は長さを保てない。 統計的推論や機械学習の文脈では、「空間が平坦であること」は決定的に重要である。平坦であれば線形代数が使え、射影や最適化が明快になるからである。

IMPORTANT

Softmaxの構造を見るために:

Softmaxが「自然な」変換であること——すなわち、自然パラメータ θ (ロジット)と期待値パラメータ η (確率)を結ぶ勾配写像であること——を理解するには、Levi-Civita接続ではなく α=±1 の世界 を見る必要がある。Levi-Civita接続のもとでは、この双対パラメータの整然とした関係(双対平坦性)が見えてこない。

「長さを変えない素直なまっすぐ」を手放すことで、確率空間の最も美しい構造——2つの平坦座標系とそれを結ぶSoftmax——が姿を現すのである。

双対平坦空間

指数型分布族が持つ最も美しい性質の一つが 双対平坦性(dually flat) である。

通常の多様体は一般に曲がっているが、適切な正則性条件を満たす指数型分布族の空間は:

  • e-接続に関して平坦(e-flat):自然パラメータ θ を座標とすると、e-測地線は直線となり、接続の曲率は0。
  • m-接続に関して平坦(m-flat):期待値パラメータ η=E[t(x)] を座標とすると、m-測地線は直線となり、接続の曲率は0。

この2つの平坦性が 同時に成り立つ 空間を 双対平坦空間(dually flat space) と呼ぶ。

CAUTION

ここでの議論は、指数型分布族が 正則(regular) かつ 最小表現(minimal representation) である場合を前提としている。正則性は θ の自然パラメータ空間が Rd の開集合であること、最小性は十分統計量 t(x) の成分間にアフィン従属な関係がないことを要請する。カテゴリカル分布を含む標準的な指数型分布族はこの条件を満たすが、パラメータが曲面上に制約される 曲指数型分布族(curved exponential family) では双対平坦性は一般に成り立たない。ただしその場合も、制約多様体上の誘導幾何(embedding curvature を考慮した情報幾何)として扱うことは可能であり、統計的推論への応用は広く研究されている。

座標系接続測地線の表現Softmaxでの対応
自然パラメータ θe-平坦θ(t)=(1t)θ0+tθ1商空間 RK/R1 上の直線
期待値パラメータ ηm-平坦η(t)=(1t)η0+tη1確率単体 ΔK1 上の直線

これら2つのパラメータは、ルジャンドル変換で結ばれている:

ψ(θ)+ϕ(η)=θη,η=θψ(θ),θ=ηϕ(η)

ここで ψ は対数分配関数(log-partition function)、 ϕ はその双対関数である。

ルジャンドル変換の幾何学的意味

ルジャンドル変換は、数式上は単なる変数の交換に見えるが、幾何学的には 「曲線を点の軌跡として見るか、接線の包絡線として見るか」 という視点の転換を意味する。

凸関数 ψ(θ) のグラフを記述するには2つの方法がある:

  • 点の集合として:各点 θ における高さ ψ(θ) を指定する。
  • 接線の集合として:各点における接線の「傾き η=ψ(θ) 」と「切片 ϕ(η) 」を指定する。

切片の符号反転を新しい関数 ϕ(η) と定義すると、元の関数 ψϕ は互いにルジャンドル変換の関係になる。つまり、ルジャンドル変換とは、曲線を「点の軌跡」と見るか「接線の包絡線」と見るかの翻訳作業 に他ならない。元の関数が(強)凸であれば、この翻訳は可逆であり、情報は一切失われない。

NOTE

Softmaxにおけるルジャンドル変換の具体例:

Softmaxの文脈では、この変換は LogSumExp関数負のエントロピー の間の双対性として現れる。

主ポテンシャル(対数分配関数)

ψ(θ)=logi=1Kexp(θi)

この勾配をとると、期待値パラメータ(確率)が得られる:

η=θψ(θ)=Softmax(θ)

双対ポテンシャル(負のエントロピー): ルジャンドル変換によって得られる双対関数 ϕ(η) は、シャノンエントロピー H(η) の符号反転となる:

ϕ(η)=i=1Kηilogηi=H(η)

この勾配 ηϕ=(logη1+1,,logηK+1)logη に定数を加えたものを返す。この +1 自体は iηilogηi を成分ごとに微分すると現れる項であり、さらに η が単体制約 iηi=1 のもとで動くことを考えると、このような定数成分はラグランジュ未定乗数(=ゲージ自由度)として吸収される。自然パラメータ θ の代表元を得るには、ゲージ固定(例えば iθi=0 )を課す必要がある。すなわち、勾配が直接返すのは logp に定数を加えた量であり、商空間の代表元としての θ はゲージ固定で初めて一意に定まる

Softmax(LogSumExpの勾配)と負のエントロピー(その双対関数の勾配)は、まさに「同じ曲線を点から見るか接線から見るか」の関係にある。

物理学とのアナロジー

ルジャンドル変換は、物理学の複数の分野で本質的な役割を果たす。情報幾何学の双対構造は、これらの物理的構造と数学的な対応関係を持ち、単なる表面的なアナロジーを超えた共通の原理——「凸関数の双対性」——に根ざしている。以下では物理学の予備知識がなくても読めるよう、概念の簡単な説明を添える。

解析力学:古典力学(ニュートン力学)を再定式化した理論体系である。物体の運動を記述する方法には2つの流儀がある。ラグランジアン L は「位置と速度」を変数にとり、ハミルトニアン H は「位置と運動量」を変数にとる。この2つの記述はルジャンドル変換で結ばれている——変数を「速度」から「運動量」に切り替えるだけで、同じ物理を別の角度から見ることができる。

NOTE

「一般化速度」「一般化運動量」の「一般化」とは、直線運動だけでなく回転や振動など任意の座標系に拡張されていることを意味する。例えば振り子なら、角度の変化率が一般化速度、角運動量が一般化運動量に対応する。

解析力学情報幾何(Softmax)
一般化速度 q˙ (位置の変化率)ロジット θ
一般化運動量 p=L/q˙ (直感的には、速度に"慣性の重み"を掛けたような量)確率 η=ψ(θ)
ラグランジアン L (多くの力学系では運動エネルギー−ポテンシャルになる)対数分配関数 ψ
ハミルトニアン H (時間に陽に依存しない場合は全エネルギーに一致することが多い)負のエントロピー ϕ

熱力学:熱や仕事とエネルギーの関係を扱う物理学の一分野である。熱力学の量は2種類に大別される。強度量(温度 T 、圧力、化学ポテンシャル μ )は系の大きさに依存しない量であり、示量量(エントロピー S 、体積、粒子数 N )は系の大きさに比例する量である。情報幾何学の自然パラメータは強度量に、期待値パラメータは示量量に対応する。そしてエネルギーと自由エネルギーの関係もまた、ルジャンドル変換で記述される。

この視点に立てば、Softmax関数は 「ロジットという速度を確率という運動量に変換する操作」 と見なせる。解析力学では、速度と運動量の両方を座標軸にとった空間を 相空間 と呼び、その上での変数の切り替え(正準変換)が力学の核心的な構造である。情報幾何学におけるSoftmaxは、ルジャンドル変換が果たす役割という点で、この正準変換に似た構造を持っている。

NOTE

解析力学の正準変換はシンプレクティック構造(位相空間の面積を保存する構造)を保つ変換として厳密に定義される。情報幾何学のルジャンドル双対もそれに似た「生成関数」的構造を持つが、シンプレクティック構造そのものを導入しているわけではない。ここでの対応は、両者が「凸関数のルジャンドル変換」という共通の数学的枠組みに乗っている、という意味である。

Softmaxとの関係: カテゴリカル分布において:

  • 自然パラメータ = ロジット z (商空間 RK/R1 として)
  • 期待値パラメータ = 確率 p (より正確には、指示関数の期待値)
  • Softmax = ルジャンドル変換の勾配写像 p=zψ(z)

ここで ψ(z)=logjexp(zj) は対数分配関数(log-partition function)である。Softmaxは、この ψ の勾配として、自然パラメータから期待値パラメータへの変換を与える。

逆向き(ロジットの代表元の復元)は zi=logpi+CC は任意定数)となるが、これは pi>0 の範囲(単体の内部)でのみ定義される。境界 pi=0 では logpi が発散するため、代表元の復元は定義されない。また、商空間のもとでは定数 C はゲージ固定によって一意に決まる。例えば izi=0 を課すと、 C=1Kilogpi となる。この構造こそが、Softmaxが商空間を経由する写像であることの現れである。

Softmaxの背後には、この双対平坦構造が隠れている。Softmaxが「自然な」変換であるのは、指数型分布族の双対構造が要請する勾配写像だからである。

IMPORTANT

なぜ双対平坦性が重要か

  1. KLダイバージェンスの構造:双対平坦空間では、KLダイバージェンスが Bregmanダイバージェンス として表現され、ピタゴラスの定理 の一般化(三平方分解)が成り立つ。これにより、e-射影(最尤推定)やm-射影(モーメント法)といった 情報射影(information projection) が幾何学的に理解できる。
  2. 自然勾配の座標不変性:自然勾配は、Fisher計量に関して 座標系によらず最急降下 を実現する。指数型分布族では自然パラメータと期待値パラメータの間の変換が簡潔であり、Fisher情報行列が扱いやすい構造を持つ(ただし制約により特異になることもあり、例えば、カテゴリカル分布で確率 p を座標に取ると Fisher は diag(p)ppT の形を持ち、単体制約のもとで低次元化や擬似逆を使って効率的に計算できる)。
  3. パラメータ表現の指針:機械学習において「どのパラメータ表現を使うか」は性能に影響する。双対平坦構造は、この選択に対する理論的な指針を与える。特に、損失関数と整合する座標系(自然パラメータか期待値パラメータか)を選ぶことで、最適化が効率化される。

講義本編との接続まとめ

講義回接続点
第0回(幾何学という言語)接続・測地線・曲率の基本概念。本Appendixの α -接続はその具体例
第4回(Softmaxと情報幾何学)Softmax=ルジャンドル変換の勾配写像。双対平坦構造が自然勾配・Fisher情報行列の背景を与える
第5回(マージンの幾何学)e-測地線(ロジット空間の直線)上での分離が、角度マージンの議論と接続する
第9回(拡散と凝縮)スコア関数 logp は、m-座標からe-座標への変換と構造的に類似
第12回(双曲幾何学)負の曲率空間は双対平坦ではないが、指数写像と対数写像の関係に類似の双対性が現れる
Appendix 4(物差し再考)KLダイバージェンスの非対称性が、e/m接続の双対性として幾何学的に説明される