Skip to content
Appendix 2: 多様体の純度問題: 幾何学がまだ解けていない課題

Appendix 2: 多様体の純度問題: 幾何学がまだ解けていない課題

問題の所在

本編は「空間の形」を設計する言語を整えた。しかし、その空間に注ぎ込まれるデータの真偽については、幾何学は沈黙している。

問い:

正規化や球面化によって「計算の形式」は安定した。 では「データの内容」を幾何学的に選別できるか?

結論を先取りすれば:

現時点ではできない。本Appendixはその理由と、将来の研究方向を地図として提示する。

本Appendixにおける「純度」の定義:

表現空間において、論理整合性・事実整合性に反するサンプルが、 学習分布にどれだけ混入しているか、および学習結果にどれだけ影響を与えるか

  • 混入率:問題のあるサンプルの割合
  • 影響度:そのサンプル(またはクラスター)を除去・重み変更したときの、検証誤差・整合性テスト・推論安定性の変化量

混入率が低くても影響度が高い場合(例:頻出パターンに矛盾するデータ)、純度は低いと見なす。

本Appendixの射程

扱うこと

  • 幾何学的安定化(表現空間の設計)と、データ選別(真偽判定)のギャップ
  • 現行手法の幾何学的翻訳と、その限界
  • 将来の研究方向(仮説レベル)

扱わないこと

  • 特定アーキテクチャの批評(nGPT、GPT-4など)
  • 社会制度論(誰がデータを管理すべきか)
  • 最終的なアライメント論(何が「正しい」価値観か)

「正しさ」の3類型

本Appendixで「正しさ」という語を使う際、以下を区別する:

類型定義幾何学との関係
論理整合性推論規則に従っているかA→B, B→C ならば A→C測地線の推移性?(未確立)
事実整合性観測・世界知識と一致するか1+1=2, 東京は日本の首都外部参照が必要(幾何学単独では不可)
規範整合性価値判断として望ましいか公平性、安全性幾何学の射程外

注意: 以下の議論は主に論理整合性事実整合性に焦点を当てる。規範整合性は本質的に幾何学の外にある。

正規化が解決したこと・しなかったこと

第3回「球面・正規化」の限界について。

解決したこと(確立された効果)

問題正規化による解決幾何学的解釈
学習の発散ノルムを一定に保つ球面上に拘束
収束の遅さ勾配のスケールが安定曲率の均一化
表現の崩壊方向のみで比較角度空間への射影

解決しなかったこと(本質的な限界)

正規化は「ベクトルの方向」を揃えるが、「その方向が正しいか」は判断しない。

入力正規化後問題
「1+1=2」の埋め込み単位球面上の点 v1-
「1+1=3」の埋め込み単位球面上の点 v2v1v2 の区別は学習データの統計に依存

幾何学的に言えば:

球面上に綺麗に配置されたデータが、全員「間違った方向」を指していても、モデルはそれを「正しい方向」として学習する。 正規化は「形式の安定」を与えるが、「内容の真偽」には中立である。

NOTE

これは正規化の「欠陥」ではなく「設計上の射程」である。正規化に真偽判定を期待するのは、定規に善悪の判断を期待するようなものだ。

現行のデータ選別手法と幾何学的解釈

既存の道具を多様体の言葉で読み直す

手法何をしているか測定量モデル依存性幾何学的解釈限界
人手ラベリング人間が「良い/悪い」を判定-なし外部の神託スケールしない
EL2Nスコア予測誤差の大きいデータを選別距離モデル・学習段階に依存損失距離の代理「難しい」と「間違い」の区別不能
Influence Functions除去時の損失変化を逆算曲率モデル・近似手法に依存Hessian近傍の寄与計算コスト、近似の不安定さ
kNN外れ値検出近傍密度が低い点を除去密度層・正規化・距離関数で結果が激変疎領域の検出「珍しい」と「間違い」の区別不能
TDA異常検知Persistenceの異常を検出位相近傍閾値・埋め込みスケールで位相が変わるトポロジーの破綻高次元での計算困難
合成データ論理エンジンで生成-生成ルールに依存多様体の「設計」分布の偏り、自己参照

測定空間に関する注意

同じ「距離」という語でも、空間が違えば意味が違う。 本Appendixでは以後、必要に応じて「表現距離」「損失距離」のように空間名を冠する。

上表の「測定量」は、必ずしも 表現空間(埋め込み空間) で測られているわけではない:

測定量実際に測られている空間表現空間との関係
距離(EL2Nなど)損失空間、予測分布空間間接的(損失距離が小さい ≠ 表現距離が近い)
曲率(Influence Functions)損失のHessian近傍多様体の曲率とは別物
密度(kNN)表現空間だが、表現の取り方(層・正規化・距離関数)に敏感座標系の選択で結果が変わる
位相(TDA)表現空間の近傍グラフ距離閾値の選択に依存

CAUTION

「EL2Nで損失距離が大きい」と「表現多様体から遠い」は同じではない。 各手法が「何の空間で何を測っているか」を常に確認すべきである。

観察

これらの手法は「幾何学的に正しい」から選んでいるのではなく、以下のいずれかに依存している:

  • 統計的多数派(EL2N、kNN)
  • 外部の論理(合成データ)
  • 人間の判断(ラベリング)

幾何学的データ選別が実用困難な理由

原理的な識別不能性

次元の呪いや鶏と卵問題の前に、より根本的な制約がある:

幾何学が見るもの真偽判定に必要なもの
内在的性質(距離・曲率・位相)外部参照(世界知識・論理規則・観測事実)

同じ幾何配置(同じ距離関係、同じ曲率、同じ位相)を持つ2つの表現空間があっても、一方では 1+1=2 が真、他方では 1+1=3 が真、というラベル付けは幾何学的に区別できない

幾何学は「形」を測るが、「形に付与された意味」は測れない。 真偽判定には、幾何学の外にある構造(ツール、ルール、監督信号)が原理的に必要である。

この識別不能性があるからこそ、後述の"Tool Use"は「逃げ」ではなく「必然」となる。

次元の呪い(表現距離・密度・曲率すべてに影響)

測定量低次元での挙動高次元での挙動
表現距離点間の差が明確距離の集中(第13回参照)
密度局所密度推定が安定サンプル数が指数的に必要
曲率二階微分が計算可能推定誤差が爆発

CAUTION

「高次元だから必ず破綻する」わけではない(第13回の注意事項参照)。 内在次元が低い場合や、強い構造がある場合は緩和されうる。 ただし、汎用的なデータ選別ツールとしては信頼性が不足している。

鶏と卵問題

曲率異常や位相異常を検出するには、まず「正しい多様体」が存在する必要がある。 しかし、その多様体自体が「ゴミデータを含んで学習されている」可能性がある。

txt
正しい多様体 → 異常検出 → クリーンなデータ → 正しい多様体
     ↑                                           ↓
     └───────── 循環依存 ←────────────────────────┘

論理と幾何の断絶

論理整合性の例:

「A→B」かつ「B→C」ならば「A→C」(推移律)

これが埋め込み空間で以下のように対応する保証がない

d(vA,vB)+d(vB,vC)d(vA,vC)

三角不等式は常に成り立つ。しかし、「含意の向き」(A→BとB→Aは別物)や 「反例の存在」x:¬P(x) )は、表現距離だけでは表現できない。

一般の一階述語論理の意味論まで含めると、距離制約だけで忠実に表すのは難しい(少なくとも自明ではない)。 これが「論理と幾何の断絶」の意味である。

事実整合性の例:

「東京は日本の首都」が正しいかどうかは、埋め込み空間の幾何学だけでは判定できない。 外部の参照(世界知識)が必要。

NOTE

TDAのBetti数は「穴の存在」を検出するが、それが「論理矛盾」である保証はない。 幾何学的な「穴」と論理的な「矛盾」の対応関係は、研究途上の仮説である。

確信した嘘(Confident Lies): ハルシネーションの2類型

第7回との対比で見る純度問題の深刻さ

第7回「不確実性の復権」では、ハルシネーションを「不確実性の表出」として扱った。 しかし、本Appendixで問題とするハルシネーションは、それとは本質的に異なる

鍵となる違い:

第7回は「無知の捏造」を扱った。 本Appendixは「誤信念の表出」を扱う。

この違いを見落とすと、「不確実性推定でハルシネーションは解決できる」という誤解に陥る。

幾何学的な2類型の対比

定義(幾何学的観点から):

  • 無知の捏造:集中度 κ が低い状態。分布が広がり、方向 μ の不確実性が高い。
  • 誤信念の表出:集中度 κ は高いが、方向 μ が誤っている状態。確信を持って間違った方向を指す。
観点第7回: 無知の捏造Appendix 2: 誤信念の表出
メカニズム知識の欠如から生じる曖昧な予測訓練データの誤りから学習した確信
幾何学的状態集中度 κ が低い
星がない空白地帯で、無理やり星座を結んでいる
集中度 κ は高いが方向 μ が嘘
「1+1=3」という偽の星が、はっきりと刻まれている
確率分布分散が大きい(フラットな分布)分散が小さい(尖った分布)
AIの心理「自信はないが、確率的に一番ありそうなのはこれ」自信を持って言うが、1+1は3である(と習った)」
サンプリング温度の効果温度を上げれば多様化(不確実性が顕在化)温度を上げても間違いの方向は変わらない
対策の可否閾値で切る、検索(RAG)で埋める幾何学単独では原理的に識別不能
外部ツールによる検証が必要

球面上での可視化

無知の捏造(第7回):

txt
      .  .  .   ← サンプル群が広く散らばる
    .       .
  .   (mu?)  .   ← どこが中心か自信がない(低kappa)
    .       .
      .  .  .

誤信念の表出(本Appendix):

txt
                ← サンプルが一点に集中
                ← しかしその方向が間違っている
     ★★★       ← 集中度kappaは高い
    ★ ✗ ★      ← ✗ = 誤った答え
     ★★★       ← モデルは確信している

純度問題が深刻な理由

第7回の不確実性推定は「知らないことを知っている」状態を検出できる。 これは重要な進歩だが、「間違って知っている」状態には無力である。

具体例:

質問第7回で検出可能なケースAppendix 2で問題となるケース
「東京都の人口は?」集中度が低い → 「わかりません」と答える「確信を持って5000万人です」(実際は約1400万人)
「1+1は?」集中度が低い → サンプリングで多様な答え「確信を持って3です」(訓練データに誤りがあった)
「フランスの首都は?」集中度が低い → 不確実性が表出「確信を持ってロンドンです」(混同データを学習)

幾何学的診断の限界:

txt
第7回の手法:
- 集中度kappaを測定 → 低ければ警告 ✓ 有効

本Appendixの問題:
- 集中度kappaは高い(モデルは確信している)
- しかし方向muが間違っている
- 幾何学単独では「正しい方向」が不明 ✗ 識別不能

なぜ幾何学単独では識別できないのか

「原理的な識別不能性」にて述べたように、幾何学は内在的性質(距離・曲率・位相)しか見ない。

2つの表現空間を考える:

空間A: 1+1=2 が真、全サンプルが高い集中度 κ で正しい方向を指す 空間B: 1+1=3 が真、全サンプルが高い集中度 κ で間違った方向を指す

この2つは、幾何学的には区別不可能である:

  • 両方とも集中度 κ は高い
  • 両方とも球面上の単峰分布
  • 距離関係、曲率、位相は同じ

違いは「意味の付与」だけであり、それは幾何学の外にある。

動態論への伏線

「確信した嘘」は、学習時の静的な問題(純度)として現れるが、 推論時には 偽の極小値(shallow attractor) として顕在化する。

予告: 続編「情報幾何学とAIの動態論」第8回では、Chain of Thoughtのエネルギー地形を扱う。 そこでは「浅い谷にトラップされる=ハルシネーション」という診断を、動的システムの言葉で描写する。

本Appendixで述べた「誤信念の表出」は、動態論では次のように翻訳される:

静的(本Appendix)動的(続編)
誤った方向 μ に高い集中度 κ偽の極小値(shallow local minimum)
データの純度問題エネルギー地形の汚染
幾何学単独では識別不可軌道の追跡で部分的に診断可能?(研究中)

NOTE

第7回の「無知の捏造」は entropy-based detection で対処できる。 本Appendixの「誤信念の表出」は external verification が必要。 動態論の「浅い谷」は trajectory analysis で診断を試みる。

これら3つは、同じ「ハルシネーション」という現象の、異なる側面である。

将来の研究方向

~SF時代への地図(仮説レベル)~

成功の定義:

成功とは「混入率を下げる」ことではなく、「影響度の高い誤りを減らす」ことで評価する。 影響度 = そのサンプルを除去・重み変更したときの、検証誤差・整合性テスト・推論安定性の変化量。

以下の表の「成功指標」は、この定義に基づく。

方向アイデア測定量成功指標障壁
多様体上の異常検知局所次元・曲率の急変を検出曲率性能:除去後に検証誤差↓、推論安定性↑高次元での推定精度
論理制約の埋め込み学習推移律などを損失関数に組み込む表現距離整合性:推移律テスト集合での違反率↓言語の曖昧さ、スケール
自己矛盾の位相的検出Persistenceの異常から矛盾を推定位相整合性:既知の矛盾例で特定パターンが再現因果関係の不明確さ
合成データによる多様体設計「正しい」多様体を先に設計-整合性:外挿領域での事実整合性↑分布の網羅性、自食作用
Tool Use(外部検証)計算・検索ツールで事実を検証-性能:検証成功率・コスト・レイテンシのPareto改善幾何学的手法ではない

成功指標の分類

  • 整合性ベンチ:推移律違反率、矛盾テスト、事実検証成功率など(純度の「論理・事実整合性」に対応)
  • 性能ベンチ:一般タスク精度、ロバスト性、推論安定性など(純度の「影響度」に対応)

現時点での誠実な結論:

幾何学的なデータ選別は「理論的には美しい」が「汎用的な道具がない」。 当面は、外部の論理エンジン(Tool Use)や合成データに頼らざるを得ない。

動態論への接続

静的な問題と動的な問題の対応

観点静的(本Appendix)動的(続編)
主題空間の形状情報の流れ
データ品質の影響配置の歪み速度場の乱流
異常の現れ方地図の誤り偽の極小値、軌道のトラップ
現状の対処外部フィルタリング正則化、温度調整

動態論で扱うべき問い

もし異常データが混入したまま学習されたとき、推論時のダイナミクスはどう破綻するか? それを「動的に」検出・修理できるか?

予告: 動態論 第8回(CoTのエネルギー地形)では、「浅い谷にトラップ=幻覚」という診断を扱う。 これは、本Appendixで述べた「データ品質の問題」が、推論時に偽の極小値として顕在化する現象である。

NOTE

本Appendixは本講義の「静的な限界」を述べた。 動態論では「動的な破綻と修理」を扱う。 両方揃えて初めて、AIシステムの幾何学的健全性の全体像が見える。

参考文献

  • Levina, E. & Bickel, P. J. (2004). Maximum Likelihood Estimation of Intrinsic Dimension. NeurIPS.
  • Facco, E. et al. (2017). Estimating the intrinsic dimension of datasets by a minimal neighborhood information. Scientific Reports.
  • Carlsson, G. (2009). Topology and Data. Bulletin of the AMS.
  • Koh, P. W. & Liang, P. (2017). Understanding Black-box Predictions via Influence Functions. ICML.
  • Paul, M. et al. (2021). Deep Learning on a Data Diet: Finding Important Examples Early in Training. NeurIPS. (EL2Nスコア)