第15回：次の時代を設計する

導入：地図を閉じる時

14回にわたる旅を経て、私たちは深層学習という大陸の地図を描いてきた。平坦なユークリッド空間から始まり、球面、双曲空間、そして時間軸を含む動的な多様体へ。測地線、曲率、トポロジーという道具を手に、手法の陳腐化に抗う「空間の形」を探ってきた。

しかし、地図は完成したわけではない。むしろ、この講義で描いた地図は「既知の領域」に過ぎず、未踏の大陸はまだその先に広がっている。最終回となる本講義では、これまでの旅を簡潔に振り返った上で、未解決の問いと未来の設計課題に焦点を当てる。

ライブラリは古くなるが、幾何学は古くならない。この原則のもと、私たちが次に建てるべき「座標系」を考えよう。

Part 1: 深層学習の旅の振り返り（15分）

～2012年頃：平坦な世界での戦い

かつて機械学習は、ユークリッド空間という平坦な地図上で行われていた。PCA（主成分分析）は共分散行列の固有ベクトルを求め、SVM（サポートベクターマシン）はマージンを最大化し、LDA（線形判別分析）はクラス間分散を最大化した。

これらの手法は優れていたが、ノルムと角度を分離しない設計ゆえに、意味の距離と不確実性が混線していた（第2回）。高次元の呪いと格闘しながら、私たちは特徴エンジニアリングという手作業で空間を整形していた。

2012年～2017年：深層学習革命と正規化の萌芽

AlexNet（2012）がImageNetで圧勝し、深層学習時代が幕を開けた。しかし当初、深層ネットワークは「なぜ動くのか」が謎に包まれていた。

転機となったのは正規化技術の登場である。Batch Normalization（2015）、Layer Normalization（2016）は、学習の安定化に寄与しただけでなく、表現を球面に近づけるという幾何学的効果を持っていた（第3回）。ResNet（2015）の残差学習も、勾配の流れを幾何学的に整理する試みと見なせる。

この時期、私たちは無意識のうちに「平坦な地図」から脱却し始めていた。

2017年～2020年：Transformerと角度中心設計の躍進

"Attention Is All You Need"（2017）の登場で、パラダイムは決定的に変わった。Attentionは内積（角度）を中核に据え、動的に空間を変形する機構である（第6回）。

同時期、顔認識分野ではArcFace（2019）が角度マージンを導入し、von Mises-Fisher分布（vMF）による球面上の確率モデルが注目された（第3回、第5回）。BERT（2018）、GPT（2019）の成功は、角度中心の設計が言語にも有効であることを示した。

この段階で、深層学習は「ノルムを抑え、角度で勝負する」方向へ明確に舵を切った。

2020年～現在：時間発展と拡張幾何学

次の転換は、時間軸の導入だった。拡散モデル（DDPM系が基盤となり、その後の高速化・蒸留等の発展を経て）は、ノイズから意味を立ち上がらせるプロセスを確率的微分方程式（SDE）として定式化した（第9回）。生成は「一撃」ではなく、時間発展する軌跡として捉えられるようになった。

球面化はさらに徹底された。nGPT（2024, ICLR 2025採録）は、すべての重みと活性化を球面上に配置する極端な設計を提示し（第3回補論）、従来の「正規化は補助的」という見方を覆した。

空間の形も多様化した。双曲幾何学は階層構造の表現に適していることが広く認識され（第12回）、Mixed-curvature spaces（ICML 2025で研究発表）は複数の曲率を組み合わせる試みである。

そしてスパース性の活用が加速した。Mixture of Experts（MoE）は、高次元空間の「ほとんどが空」という性質を設計原理に転換し、研究・オープンウェイト・商用モデルでの採用が増加している（第13回）。Llama 4（2025）のような大規模モデルがMoEを採用したことは、この流れを象徴する。

トポロジーという新しい顕微鏡も導入された。Topological Data Analysis（TDA）は、表現空間の「穴」や「ループ」といった位相的不変量を測り、決定境界の連結性や表現の多様体構造を解析する試みがある（第14回）。RoPE（Rotary Position Embedding）は、LLMで広く採用される位置符号化手法として、角度の幾何学をさらに洗練させた。

NOTE

キーメッセージ：

「How（手法）」から「Why（空間の形）」へ
ライブラリは古くなるが、幾何学は古くならない
連続と離散の界面を常に意識せよ
スパース性は呪いではなく設計原理である

注意： 上記の年表は、技術動向の大まかな見取り図である。個々の手法の「主流化」「普及」といった表現は、研究・商用・オープンウェイトなど文脈により程度が異なる。詳細は各回と参考文献を参照されたい。

Part 2: 未解決問題と未来（20分）

過去を振り返ることは、未来を設計するためだ。ここでは、本講義が触れてきたテーマに関連する6つの未解決問題を提示する。これらは技術的課題であると同時に、哲学的・数学的問いでもある。

問い1：統一多様体は存在するのか？

現在の深層学習は、モダリティごとに異なる空間を持つ。画像はCNN的な局所構造、言語はTransformer的な系列構造、音声は時間周波数構造。マルチモーダルモデル（CLIP, Flamingo等）は、これらを共通の埋め込み空間に射影しようとする（第11回）。

しかし、問いは残る：

すべてのモダリティを単一の球面（または双曲空間）に埋め込むことは可能か？
それとも、各モダリティは異なる曲率・次元の多様体上にあり、それらを「翻訳」する方が自然なのか？
生物の脳はどうしているのか？視覚野、聴覚野、言語野は異なる構造を持つが、最終的に統合される。その幾何学は？

CAUTION

「統一」が常に望ましいとは限らない。異なる空間を保ったまま接続する「ブリッジ」の方が、柔軟性が高い可能性もある。

問い2：離散と連続の最適な界面は？

深層学習は本質的に連続と離散の境界で動作する。重みは連続だが、出力はしばしば離散（argmax、サンプリング）。この界面は最適なのか？

現在の argmax や Gumbel-Softmax は、連続空間から離散選択への「雑な射影」ではないか？
より「滑らかな」離散化は可能か？
将来的に、量子コンピューティングの重ね合わせ状態との接点が生まれる可能性はあるか？
第4回補論で触れた「離散化の幾何学」は、まだ発展途上である。

具体例： 機械翻訳で「次の単語」を選ぶとき、argmaxは最も確率の高い1単語だけを選ぶ。しかし、複数の候補が僅差の場合、その「曖昧さ」自体が意味を持つのではないか？離散化のタイミングを遅らせることで、より豊かな表現が可能になるかもしれない。

問い3：意識は多様体で記述できるのか？

これは科学的問いであると同時に、哲学的問いである。意識のハードプロブレム（なぜクオリアが存在するのか）に、幾何学は何を言えるのか？

統合情報理論（IIT） は、意識を「情報の統合度」として定量化する試みである。これを幾何学的に解釈すれば、意識とは「多様体上の自己参照ループ」かもしれない。

自己認識 = 表現空間が自分自身を埋め込むこと？
クオリアの違い（「赤さ」と「青さ」）= 異なる部分多様体の形状？
意識の連続性 = 多様体上の連結な経路の存在？

WARNING

これは思考実験・研究アジェンダである。現時点で、意識を数学的に完全に記述できる理論は存在せず、科学的合意も得られていない。以下の問いは哲学的探究として提示するものであり、確立された事実ではない。しかし、問うこと自体が次の発見を生む可能性はある。

問い4：曲率は学習可能か？

第12回で双曲幾何学を扱い、階層構造には負の曲率が適していることを見た。しかし、最適な曲率はタスク依存である。ならば、曲率自体を学習パラメータにできないか？

最近の研究動向：

Mixed-curvature spaces： 同じ空間内で、異なる領域が異なる曲率を持つアプローチが研究されている（例：ICML 2025で組合せ最適化分野での応用が発表）。階層的なカテゴリは双曲、並列的な属性はユークリッド、周期的な時間は球面、といった組み合わせが考えられる。
学習可能な曲率パラメータ： 一部の研究では、曲率を勾配降下で最適化する試みがある。しかし、曲率が変わると測地線も変わるため、最適化の安定性が課題。

未解決： 局所的に曲率が滑らかに変わる多様体（可変曲率多様体）での効率的な学習アルゴリズムは？

問い5：MoEの先にあるものは？

第13回で扱ったMoEは、離散的な「Expert選択」に基づく。しかし、Expertの数を増やし続けると、どこかで連続的な空間に近づくのではないか？

思考実験：

Expert数を無限に増やしたら？ → 連続的なExpert空間？各点が「微小な専門家」？
Soft MoE（ICLR 2024） は、離散ルーティングを連続化する試みだが、まだ完全な連続空間ではない。
「専門家」の概念自体を学習できるか？ 現在は人間が「Expertを8個作る」と決めているが、最適な分割を自動発見できないか？

NOTE

この問いは、「離散と連続の界面」（問い2）とも深く関連する。MoEを極限まで押し進めると、新しい計算パラダイムが見えるかもしれない。

問い6：説明可能性とは何か？（幾何学的に）

AIの判断を説明せよ、という社会的要請がある。しかし、「説明」とは幾何学的に何を意味するのか？

幾何学的解釈：

「なぜこう判断したか」 = 「入力から出力まで、多様体上のどの経路を通ったか」
「この特徴が重要だった」 = 「この方向への射影が大きかった」
「AとBは似ている」 = 「測地線距離が近い」

問題は、これらの幾何学的事実を人間に伝達可能な形で表現することだ。高次元空間の経路を3次元に射影すると、本質が失われる。トポロジー的な「決定境界の形」（穴の数、連結成分）を可視化する技術（TDA的アプローチ）は、一つの方向性だが、まだ発展途上である。

未解決： 高次元多様体の「本質的な構造」を、低次元でも保存する射影法は？

Part 3: ワークショップ（45分）

理論だけでは不十分だ。ここでは、受講者自身が「次の座標系」を構想するワークショップを行う。

課題：「あなたが考える次の座標系は何か？」

以下の進行で、5-6人のグループに分かれて議論し、発表する。

タイムライン

ブレインストーミング（15分）
- 制約なく自由に発想する
- 「実現可能性」は一旦脇に置く
- ホワイトボードやメモを使い、アイデアを可視化
発表準備（5分）
- グループで最も刺激的なアイデアを1つ選ぶ
- スライド1-2枚にまとめる（手書きスケッチでも可）
- 以下を含めること：
  - 提案する座標系の名前
  - どのような問題を解決するか
  - 既存の座標系との違い
発表（各グループ5分）
- 簡潔に、しかし情熱を持って
- 質疑応答は発表後にまとめて行う

発表テーマ例（インスピレーション）

グループは以下のテーマに縛られる必要はないが、考えるヒントとして：

時空を統合した4次元多様体での学習
- 時間を単なるインデックスではなく、空間と対等な次元として扱う
- 相対性理論的なメトリックは必要か？
離散と連続を橋渡しするハイブリッド幾何学
- グラフ構造と多様体を統一的に扱う空間
- 離散ノードを「多様体上の特異点」として解釈
感情や美的感覚の多様体
- 「悲しみ」と「喜び」の測地線距離は？
- 美しさを測る曲率は存在するか？
ソーシャルネットワークの動的多様体
- 人間関係を時間発展する双曲空間で表現
- コミュニティ = 曲率が局所的に高い領域？
創造性を測る幾何学的指標
- 新規性 = 既存の表現空間からの測地線距離？
- 創造性の高い生成 = 多様体の境界を拡張すること？
「連続的MoE」の設計
- Expertを離散的に選ぶのではなく、連続的な「Expert場」から値を読み取る
- 問い5への具体的な回答

クラス全体でのディスカッション（10分）

すべての発表後、以下を問う：

どの提案が最も刺激的だったか？なぜ？
実現可能性は？技術的障壁は何か？
必要な数学的道具は？（微分幾何、トポロジー、確率論…）
倫理的・社会的含意はあるか？

IMPORTANT

このワークショップに「正解」はない。目的は、問いを立てる力を養うことである。

Part 4: 最終メッセージ（10分）

深層学習以前：ユークリッド空間での機械学習

かつて機械学習は、平坦な地図上での戦いだった。特徴エンジニアリングという手作業で空間を整形し、線形分類器という単純な道具で境界を引いた。それでも、多くの問題は解けた。

今：「物理法則」としてのAI

今、深層学習は単なる統計的手法を超えつつある。拡散モデルは熱力学と共鳴し、Transformerは動的な幾何学を操り、MoEはスパース性を設計原理に転換した。

AIは「物理法則」に従い始めている。ノイズから秩序が立ち上がり、情報が流れ、構造が自己組織化する。私たちがやっているのは、パラメータの調整ではなく、空間の設計である。

未来：？

しかし、未来は白紙だ。

この講義で学んだのは「過去の座標系」である。次の座標系は、まだ誰も知らない。それは曲がっているかもしれないし、離散と連続が溶け合っているかもしれない。時間軸が複数あるかもしれないし、私たちがまだ名前を持たない構造を持つかもしれない。

それを発見しにいこう。

まとめ：3つの原則

最後に、この講義を通じて伝えたかった3つの原則をまとめる。

1. 流行を追うな、空間の形を問え

来年には新しいモデルが登場し、今年のSOTAは過去になる。しかし、幾何学の視点は残る。

どんな新しい手法が出ても、それがどの多様体上で、どの測地線に沿って動いているかを問え。本質を見抜く目を養え。

2. 数式を恐れるな、しかし数式に溺れるな

数式は「道具」であって「目的」ではない。リーマン計量が書けなくても、「空間が曲がっている」という直感があれば十分な場面は多い。

一方で、直感だけでは限界がある。厳密性は、直感を裏切る現象（赤道集中、距離の集中）を発見する。

直感と厳密性のバランスを保て。

3. 次のプラネタリウムを建てよう

第3回で、私たちは「プラネタリウム」という比喩を導入した。球面上に星（表現）を配置し、その配置が意味の地図になる。

しかし、それは一つの座標系に過ぎない。次のプラネタリウムは、球面ではないかもしれない。双曲空間かもしれないし、時間発展する多様体かもしれない。あるいは、まだ誰も見たことのない形をしているかもしれない。

それを建てるのは、あなただ。

参考文献

深層学習と幾何学の接続

Amari, S. (2016). Information Geometry and Its Applications. Applied Mathematical Sciences, Vol. 194. Springer Japan. DOI: 10.1007/978-4-431-55978-8
- 情報幾何学の標準的教科書。フィッシャー情報行列、自然勾配、双対構造などを体系的に扱う。本講義全体を通じた数学的基盤。
Bronstein, M. M., Bruna, J., Cohen, T., & Veličković, P. (2021). Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges. arXiv: 2104.13478
- 幾何学的深層学習の統一的サーベイ。対称性・不変性・同変性の観点から深層学習を俯瞰する。本講義の立場と最も近い視点を持つ文献。

Transformer とAttention

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. NeurIPS 2017. arXiv: 1706.03762
- Transformerの原論文。本講義で繰り返し参照したScaled Dot-Product AttentionとMulti-head Attentionの一次文献。

拡散モデル

Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv: 2006.11239
- DDPMの原論文。第9回で詳しく扱った現代的拡散モデルの基礎。
Song, Y., et al. (2021). Score-Based Generative Modeling through Stochastic Differential Equations. ICLR 2021. arXiv: 2011.13456
- SDEに基づく統一的な定式化。VP-SDE、VE-SDE、確率フローODEを導入。

Mixture of Experts

Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. Journal of Machine Learning Research, 23(120), 1–39. arXiv: 2101.03961 (2021)
- MoEの訓練安定化技術（Load Balancing Loss等）を扱う。本講義のMoE設計の中心的参照先。
Dai, D., et al. (2024). DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. ACL 2024, 1280–1297. arXiv: 2401.06066
- 細粒度Expert + 共有Expertの設計。第13回・第0回で言及したMoEのルーティング幾何の実装例。
Puigcerver, J., Riquelme, C., Mustafa, B., & Houlsby, N. (2024). From Sparse to Soft Mixtures of Experts. ICLR 2024. arXiv: 2308.00951
- 離散的ルーティングを連続化するSoft MoE。Appendix 3で扱ったルーティング崩壊への一つの回答。
Meta AI (2025). The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation. ai.meta.com/blog/llama-4-multimodal-intelligence/
- Llama 4のMoEアーキテクチャに関する公式発表。マルチモーダルMoEの最新実装例。

正規化と球面化

Ioffe, S., & Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. ICML 2015. arXiv: 1502.03167
- Batch Normalizationの原論文。第8回の正規化層の議論の基礎。
Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer Normalization. arXiv: 1607.06450
- Layer Normalizationの原論文。Transformerで広く使用され、本講義で繰り返し登場。
Loshchilov, I., Hsieh, C.-P., Sun, S., & Ginsburg, B. (2025). nGPT: Normalized Transformer with Representation Learning on the Hypersphere. ICLR 2025. arXiv: 2410.01131 (2024)
- すべての表現を単位球面上に制約するTransformer設計。第3回・第6回・第8回で言及した球面化設計の集大成。

位置符号化

Su, J., et al. (2024). RoFormer: Enhanced Transformer with Rotary Position Embedding. Neurocomputing, 568, 127063. arXiv: 2104.09864 (2021)
- RoPEの原論文。第6回で扱った回転による相対位置表現の一次文献。

Mixed-curvature spaces

Gu, A., Sala, F., Gunel, B., & Ré, C. (2019). Learning Mixed-Curvature Representations in Product Manifolds. ICLR 2019. openreview.net/forum?id=HJxeWnCcF7
- 球面・双曲・ユークリッドの直積空間での表現学習。第12回の補足として紹介。
Liu, S., Cao, Z., Feng, S., & Ong, Y.-S. (2025). A Mixed-Curvature based Pre-training Paradigm for Multi-Task Vehicle Routing Solver. ICML 2025. openreview.net/forum?id=JsPyLqCgks
- 混合曲率空間の組合せ最適化への応用。曲率設計が実問題に効く事例。

双曲幾何学とAI

Nickel, M., & Kiela, D. (2017). Poincaré Embeddings for Learning Hierarchical Representations. NeurIPS 2017. arXiv: 1705.08039
- 双曲空間への埋め込みの先駆的論文。第12回の中心的参照先。
Chami, I., Ying, Z., Ré, C., & Leskovec, J. (2019). Hyperbolic Graph Convolutional Neural Networks. NeurIPS 2019. arXiv: 1910.12933
- グラフニューラルネットワークの双曲空間への拡張。第12回で言及。

Topological Data Analysis

Carlsson, G. (2009). Topology and Data. Bulletin of the American Mathematical Society, 46(2), 255–308. DOI: 10.1090/S0273-0979-09-01249-X
- TDAの創始者による解説論文。第14回の中心的参照先。

第15回：次の時代を設計する ​

導入：地図を閉じる時 ​

Part 1: 深層学習の旅の振り返り（15分） ​

～2012年頃：平坦な世界での戦い ​

2012年～2017年：深層学習革命と正規化の萌芽 ​

2017年～2020年：Transformerと角度中心設計の躍進 ​

2020年～現在：時間発展と拡張幾何学 ​

Part 2: 未解決問題と未来（20分） ​

問い1：統一多様体は存在するのか？ ​

問い2：離散と連続の最適な界面は？ ​

問い3：意識は多様体で記述できるのか？ ​

問い4：曲率は学習可能か？ ​

問い5：MoEの先にあるものは？ ​

問い6：説明可能性とは何か？（幾何学的に） ​

Part 3: ワークショップ（45分） ​

課題：「あなたが考える次の座標系は何か？」 ​

タイムライン ​

発表テーマ例（インスピレーション） ​

クラス全体でのディスカッション（10分） ​

Part 4: 最終メッセージ（10分） ​

深層学習以前：ユークリッド空間での機械学習 ​

今：「物理法則」としてのAI ​

未来：？ ​

まとめ：3つの原則 ​

1. 流行を追うな、空間の形を問え ​

2. 数式を恐れるな、しかし数式に溺れるな ​

3. 次のプラネタリウムを建てよう ​

参考文献 ​

深層学習と幾何学の接続 ​

Transformer とAttention ​

拡散モデル ​

Mixture of Experts ​

正規化と球面化 ​

位置符号化 ​

Mixed-curvature spaces ​

双曲幾何学とAI ​

Topological Data Analysis ​