Skip to content
情報幾何学とAIの統一視点
全ページ目次
Search
K
Main Navigation
全目次
キーワード集
参考文献
Appearance
Menu
Return to top
ページ一覧
イントロ
第0回:幾何学という言語 ~この講義の羅針盤~
第1回:かつての地図 ~平らな世界で戦っていた私たち~
第2回:ノルムの呪い ~意味と不確実性の未分化~
第3回:プラネタリウムの建設 ~極座標へのパラダイムシフト~
第4回:分類の再統一 I ~Softmaxと情報幾何学~
第5回:分類の再統一 II ~マージンの幾何学~
第6回:Transformerという測量士 ~動的な接続~
第7回:不確実性の復権 ~Variance Matters~
第8回:時間の発見 ~一撃からの脱却~
第9回:拡散と凝縮 ~熱力学との融合~
第10回:思考の連鎖 ~推論の軌跡~
第11回:感覚の統合 ~異種多様体の結婚~
第12回:双曲幾何学 ~負の曲率の世界~
第13回:高次元の深淵 ~幾何学的な恐怖と祝福~
第14回:トポロジーという顕微鏡 ~穴とループの発見~
第15回:次の時代を設計する
Appendix 1: 量子化の幾何学
Appendix 2: 多様体の純度問題: 幾何学がまだ解けていない課題
Appendix 3: 動的剪定の幾何学: 柔軟な回路がもたらす知能
Appendix 4: 空間の「物差し」再考: 2点間から情報の密度まで
Appendix 5: 情報幾何学における双対構造:2種類のまっすぐ
Appendix 6: 特異点の幾何学: AIはなぜ汎化するのか
目次
全ページ目次
イントロ
重要な前提と制約
第0回:幾何学という言語 ~この講義の羅針盤~
注意事項
導入:なぜ幾何学なのか
多様体:局所と大域の二重構造
多様体とは何か
多様体の機能的階層
深層学習に現れる具体的な空間モデル
なぜ多様体が重要か
測地線:曲がった空間での「直線」
測地線とは何か
深層学習における測地線
曲率:空間の「曲がり具合」
曲率とは何か
曲率の直感的理解
曲率と平行移動
リーマン計量:「距離の測り方」を定める
リーマン計量とは何か
統計的モデルという名の「多様体」
フィッシャー情報行列
情報幾何学:確率分布の多様体
甘利俊一の情報幾何学
自然勾配と学習の効率
本講義の立ち位置
本講義の地図:平坦から曲がった世界へ
三つの世界
連続と離散の界面
スパース性:高次元空間の「ほとんどが空」
幾何学の限界:形は測れても、正しさは測れない
本講義が扱わないこと
外部参照の必要性
続編への接続:静的から動的へ
まとめ
ゴール
次回予告
実装ノート:幾何学的直感を検証する
高次元での直交性の確認
測地線(Slerp)と線形補間の違い
参考文献
情報幾何学・リーマン幾何学(数学的基礎)
多様体仮説
幾何学的深層学習(サーベイ)
最適化(Adam・自然勾配との関係)
Mixture of Experts(MoE)
球面補間(Slerp)
第1回:かつての地図 ~平らな世界で戦っていた私たち~
注意事項
導入:平らな世界の住人たち
PCAとSVD:影絵の時代
高次元の「見える化」という切実な課題
PCAの幾何学的解釈
「影絵」という比喩
PCAの暗黙の前提
歴史的文脈
Isomap と LLE:曲がった空間への最初の一歩
2000年、Science に載った二つの革命
Isomap と LLE によるスイスロールの展開
SVM vs ロジスティック回帰:幾何か統計か
二つの哲学
SVMの幾何学:マージン最大化
「サポートベクター」の幾何学的意味
カーネルトリック:暗黙の高次元空間
ロジスティック回帰:確率の世界
当時は「水と油」に見えた
Bag-of-Words:単語の袋という割り切り
言語を数にする
頻度の重み付け:TF-IDF と PMI
高次元の疎な空間という限界
pLSA/LDA:離散的な星空
トピックモデルの発想
LDAの生成モデル
「離散的な星空」という比喩
先進性と限界
「平らな世界」の限界:まとめ
三つの暗黙の仮定
ユークリッド空間の「呪縛」
「見落とし」の具体例
歴史的意義:批判ではなく考古学
次回予告
実装ノート:古典手法の幾何学的可視化
PCAによる次元削減と情報損失の可視化
SVMの決定境界とマージンの可視化
Bag-of-Words の限界:順序の喪失
参考文献
主成分分析(PCA)
非線形次元削減(多様体学習)
サポートベクターマシン(SVM)
トピックモデル
単語重み付けと共起統計
単語埋め込み(後続手法への橋渡し)
第2回:ノルムの呪い ~意味と不確実性の未分化~
注意事項
導入:一つの数値に詰め込まれた複数の意味
未分化な指標としてのノルム
三重の意味
Word2Vecにおけるノルムの曖昧さ
確信度とノルムの混同
正規化しない時代の問題
次元の呪いの幾何学的理解
高次元空間の逆説
距離の集中:すべてが「同じくらい遠い」
実験による確認
ユークリッド距離が情報を失う瞬間
直交性の発見:呪いから祝福へ
ランダムベクトルはほぼ直交する
赤道への集中
呪いを祝福に変える
大規模言語モデルへの示唆
ヒントンの苦闘:向きと長さを分離する試み
問題意識
RBM:エネルギー関数による表現学習
カプセルネットワーク:明示的な分離の試み
カプセルネットワークの評価
「なぜ長さを捨てられないのか?」
補足:情報幾何学からの視点
フィッシャー情報と「重要な方向」
ノルムと情報量
次回予告
実装ノート:高次元の性質を体感する
距離の集中の可視化
高次元での直交性の確認
Word2Vecにおけるノルムと頻度の関係(概念実験)
参考文献
次元の呪い・距離の集中
単語埋め込みとノルム
RBMとカプセルネットワーク
球面符号・高次元幾何
第3回:プラネタリウムの建設 ~極座標へのパラダイムシフト~
注意事項
導入:平面から球面へ
nGPTの衝撃:設計の徹底
nGPTとは何か
「正規化」と「球面制約」の違い
なぜ高速化するのか(仮説)
歴史的文脈:なぜ2010年代には普及しなかったか
プラネタリウム・メタファー
球面を「ドーム」として捉える
角度が意味を担う
測地線距離
von Mises-Fisher分布:球面上の「正規分布」
なぜ球面上の確率分布が必要か
vMF分布の定義
集中度 $\kappa$ の直感
vMFと正規分布の対応
Softmaxとの関係
球面上の学習:幾何学的な意味
勾配の方向
正規化による近似
球面設計の限界と注意点
ノルムに意味がある場合
球面と超球面の混同
曲率の影響
次回予告
実装ノート:正規化の実践
基本的な正規化
数値安定性の問題
nGPT風の設計:球面制約の維持
vMF分布の可視化
参考文献
nGPTと球面上の学習
von Mises-Fisher分布
リーマン最適化
第4回:分類の再統一 I ~Softmaxと情報幾何学~
注意事項
導入:連続と離散の界面
Softmax:確率単体への幾何学的写像
シンプレックス:確率分布の空間
Softmaxの定義と性質
なぜSoftmaxは確率を直接扱わずにロジットを使うのか
球面からシンプレックスへ:第3回との接続
Softmaxの冗長性:平行移動不変性と商空間
なぜ指数形なのか:最大エントロピー原理
制約付きエントロピー最大化
Log-Sum-Expの凸性:最適化しやすさの源泉
温度パラメータ:分布の鋭さの制御
情報量:確実性からの遠さ
情報幾何学:確率空間の計量構造
確率多様体と統計多様体
Fisher情報行列:確率空間の計量
自然勾配:幾何学に従った降下
実用的な接続
発展的トピック:構造化と離散化
構造化予測:点から線へ
離散への着地:Gumbel-Softmaxとサンプリング
まとめ:3つの視点の統合
実装ノート
数値安定なSoftmax
Gumbel-Softmax
正規化された分類器
自然勾配の近似(教育目的)
参考文献
Softmaxと最大エントロピー
情報幾何学と自然勾配
Gumbel-Softmaxと離散サンプリング
条件付き確率場(CRF)と構造化予測
情報幾何学の教科書
第5回:分類の再統一 II ~マージンの幾何学~
注意事項
導入:二つの伝統の邂逅
SVMの魂:最大マージン原理
マージンとは何か:最も「ゆとり」のある境界線
マージンを決定する「支柱」:サポートベクター
なぜマージン最大化が有効か
SVMの幾何学的世界観
球面上のマージン:角度による再定式化
空間を変えると何が変わるか
球面上のSVM的発想
ArcFace:角度マージンの実現
従来のSoftmax分類器の限界
ArcFaceのアイデア
幾何学的解釈
マージンの種類:ArcFace、CosFace、SphereFace
SVMとArcFaceの対話
共通する精神
異なる点:最適化問題の構造
ArcFaceによる統計(確率)と幾何(マージン)の統合
ArcFaceは確率モデルか幾何モデルか
歴史的対立の解消
まとめ
次回予告
実装ノート
ArcFaceの素朴な実装
数値安定なArcFace
CosFaceとSphereFaceの実装
マージンの効果の可視化
参考文献
ArcFaceと角度マージン手法
SVMと最大マージン理論
球面上の学習(関連)
第6回:Transformerという測量士 ~動的な接続~
注意事項
Transformerの全体像
構成要素
導入:静的な地図から動的な測量へ
カーネル法の限界:固定された特徴空間
カーネル法とは何だったか
固定性という制約
Attention機構:動的な測量システム
Query-Key-Valueの直感
標準Transformerの計算ステップ
球面解釈が成り立つ条件
天体観測メタファー:QKVの再解釈
なぜ「辞書」ではなく「天体観測」か
星空としてのトークン列
辞書メタファーとの本質的な違い
Multi-head Attention:複数の視点
なぜ複数のヘッドが必要か
幾何学的解釈:部分空間への射影
RoPE:回転による相対位置の表現
位置情報の必要性
RoPEの核心:回転による相対位置
2次元での具体例
高次元での具体例:回転スピードの使い分け
幾何学的メリット: 情報の保存と長距離への対応
天体観測メタファー: 天球の回転
Softmaxの役割:連続から離散への橋渡し
Attentionにおけるスケーリング
情報の加重和としての出力
まとめ
本回のポイント
次回予告
実装ノート
標準的なScaled Dot-Product Attention
Cosine Attention(L2正規化版)
RoPEの実装
Multi-head Attentionの完全な実装
参考文献
Transformer
RoPE
nGPTと正規化設計
カーネル法とAttentionの関係
第7回:不確実性の復権 ~Variance Matters~
注意事項
導入:解像度を上げる
ノルムの分離という思想
従来:混沌としたノルム
これから:意味と確信度の分離
VAEとガウス空間の重力
潜在空間を「押し込める」力
ユークリッド空間の不均一性
球面への脱出:vMFという一般化
von Mises-Fisher分布:球面上のガウス分布
vMF分布とは何か
$\kappa$ の直感的理解
正規化定数の複雑さ
不確実性の定量化
エントロピーとしての不確実性
近似式の条件
確信度としての $\kappa$
Out-of-Distribution(OOD)検知
問題:ドーム上の「盲点」
分布表現による解決策
ハルシネーションの幾何学
ハルシネーションとは何か
幾何学的な対策
整列(Alignment)からの解放
従来の問題:座標系の不一致
$\kappa$ による座標フリーの比較
分布埋め込みの学習
アーキテクチャの選択肢
学習の課題
Visualization Break:Attentionの幾何学を見る
デモ:確信度を持つAttention
まとめ
本回のポイント
視点の階層:「点」という言葉の多義性
発展的トピック: Zipf則の幾何学的正体 ~なぜ「頻出語」は広がるのか~
次回予告
実装ノート
vMF分布のパラメータ化
vMF分布からのサンプリング
vMF間のKLダイバージェンス
確信度に基づくOOD検知
座標フリーの分布比較
参考文献
分布埋め込みとvMF分布
不確実性の定量化
OOD検知
ハルシネーションと信頼性
球面上のサンプリング
第8回:時間の発見 ~一撃からの脱却~
注意事項
導入:召喚術から映画制作へ
古典的生成モデルの構造と限界
GANの構造
VAEの構造
一撃変換の限界
不安定性の幾何学的理解
転換点:安定化技術の成熟
残差接続(ResNet)
残差接続の幾何学的再解釈
スキップ接続の役割
正規化層の役割
概念整理:写像からベクトル場へ
Neural ODE:連続時間への拡張
離散から連続へ
Neural ODEとは何か:具体的なイメージ
Neural ODEの本質的な跳躍:何が革命だったのか
Neural ODEの構造
Neural ODEの表現力の限界とAugmented Neural ODEs
時間発展の幾何学
位相空間としての表現空間
ベクトル場としてのニューラルネットワーク
流れの保存則
Neural ODEが開いた地平
連続正規化フロー(FFJORD)
Latent ODE:時系列への展開
Flow Matchingへの道
パラダイムの転換:何が変わったか
拡散モデルへの橋渡し
拡散モデルの直感
なぜ拡散モデルが強力か
時間の明示化
まとめ
本回のポイント
次回予告
実装ノート
残差ブロックの実装
Neural ODEの実装(torchdiffeqを使用)
軌跡の可視化
ResNetとNeural ODEの比較
参考文献
残差接続とResNet
正規化層
Neural ODE
古典的生成モデル
拡散モデル(次回への接続)
第9回:拡散と凝縮 ~熱力学との融合~
注意事項
導入:霧から星が凝縮する
標準的な拡散モデル: $\mathbb{R}^d$ 上の定式化
Forward Process:データからノイズへ
解の閉形式:任意時刻への直接ジャンプ
最終状態:ガウス分布への収束
Reverse Process:ノイズからデータへ
スコア関数:確率の流れの方向
スコア関数の幾何学的意味
スコアマッチング:スコアの学習
確率フローODE:決定論的な生成
SDEからODEへ
確率フローODEの利点
ベクトル場としての解釈
Langevin動力学:スコアによるサンプリング
スコアベースのサンプリング
拡散モデルとの関係
エネルギーベースモデルの復活
EBMとは
スコアマッチングによる突破
幾何学的視点の価値
スコアは「確率の流れの方向」
word2vecの再評価:ベクトル演算の復権(解釈の一案)
確率分布の時間発展
Flow Matching:統一的な視点
Flow Matchingとは
拡散モデルとの関係
まとめ
本回のポイント
発展的トピック: 学習の熱力学:不可逆輸送と認識論的コスト
学習とは「パラメータ分布の輸送」である
認識論的コスト (Epistemic Costs)
発展的トピック: 球面上の拡散モデル
標準手法との違い
球面拡散の動機
次回予告
実装ノート
標準的な実装
DDPMの学習ループ
DDIMサンプラー
スコアマッチングの可視化
球面拡散の概念実装
参考文献
拡散モデルの基礎
スコアベース生成モデル
高速サンプリング
Flow Matching
スコアマッチング
エネルギーベースモデル
Langevin動力学
第10回:思考の連鎖 ~推論の軌跡~
注意事項
導入:推論という旅
推論の二つのモード:One-shot vs Multi-step
One-shot推論:直接の飛躍
Multi-step推論:足場を使った旅
なぜ「遠回り」が必要か
Chain of Thoughtの本質
CoTとは何か
連続的思考と離散的出力
足場としての中間トークン(仮説的なメカニズム)
Test-time Compute Scaling
推論時の計算量と性能
計算量を増やす方法(分類)
幾何学的解釈(比喩)
HMMとの対比:局所から大域へ
隠れマルコフモデル(HMM)
マルコフ性の限界
TransformerとCoT:大域的な文脈
幾何学的な対比
ビームサーチの幾何学
貪欲法の限界
ビームサーチ:複数経路の同時探索
幾何学的解釈:経路の競争
サンプリング戦略
Model Collapse:生成データの罠
現象の説明
幾何学的解釈
原因の分析
対策
Dimensional Collapse:表現の縮退
現象の説明
Model Collapseとの違い
幾何学的解釈
検出方法:特異値分解
有効ランク
なぜ問題か
まとめ
本回のポイント
次回予告
実装ノート
有効ランクの計算
Model Collapseのシミュレーション
CoT軌跡の可視化(概念デモ)
ビームサーチの実装
参考文献
Chain of Thought
推論と探索
スケーリング則
Model Collapse
Dimensional Collapse
第11回:感覚の統合 ~異種多様体の結婚~
注意事項
導入:異なる感覚器官を持つ知性
異種多様体:それぞれの「住む世界」
モダリティごとの構造的特性
多様体としての解釈
CLIPの革命:共有空間への整列
対照学習の基本アイデア
損失関数の幾何学
球面上の「引力」と「斥力」
温度パラメータの役割
統一多様体の問題:「無理やり同じドームに押し込む」歪み
モダリティ固有の構造が取り出しにくくなる可能性
モダリティギャップ
ゼロショット転移の限界
歴史からの教訓:空間を「広げて」解決する
Frustratingly Easy Domain Adaptation (FEDA)
幾何学的な本質:次元の直交化
「情報の棲み分け」という思想
現代への遺産
CLIPとの対比:「統一」か「分離」か
次世代への示唆:翻訳か統一か
アプローチ1:モダリティ間の構造を保つ写像
アプローチ2:階層的な統合
アプローチ3:動的な統合
具体例:ImageBindとその先
ImageBind:6モダリティの統合
「統一」の質を問う
まとめ
本回のポイント
問い
次回予告
実装ノート:対照学習の基本
コサイン類似度と対照損失
モダリティギャップの可視化
FEDA(空間の拡張)の実装
簡易的なマルチモーダルエンコーダ
参考文献
CLIPと対照学習
ドメイン適応と空間の拡張
モダリティギャップ
CLIPの限界と構成性
ImageBindと多モダリティ統合
マルチモーダル学習のサーベイ
第12回:双曲幾何学 ~負の曲率の世界~
注意事項
導入:球面の「外」へ
階層構造の埋め込み問題:なぜ球面では足りないのか
木構造の指数的成長
ユークリッド空間での困難
球面空間での困難
双曲空間:負の曲率の世界
負の曲率とは何か
指数的に広がる周囲
双曲空間の距離公式
ポアンカレ円板モデル:無限を有限に閉じ込める
モデルとは何か
ポアンカレ円板の構造
距離公式
測地線の形状
階層構造の自然な埋め込み
木構造との対応
Poincaré Embeddings
応用例
球面との対比:正と負の曲率
幾何学的性質の比較
適したデータ構造
曲率の学習
拡張:Mixed-Curvature Spaces
単一曲率の限界
複合曲率空間
関連研究
Visualization Break IV:ポアンカレ円板を体験する
デモ:木構造の埋め込み比較
まとめ
本回のポイント
問い
次回予告
実装ノート
ポアンカレ円板の距離計算
指数写像と対数写像
簡易的な木構造の埋め込み
Geooptの利用例
参考文献
双曲埋め込みの基礎
理論的背景
知識グラフと双曲空間
Mixed-Curvature Spaces
実装とライブラリ
双曲幾何学の教科書
第13回:高次元の深淵 ~幾何学的な恐怖と祝福~
注意事項
導入:高次元という「異世界」
高次元の二つの顔:第2回からの復習と深化
「ほぼ直交」という奇妙な世界
「ほぼ等距離」という落とし穴
赤道集中現象:高次元球面の奇妙な地理
「ほぼすべての点が赤道付近」
直感的理解
kNNの幾何学:高次元での破綻と復活
k近傍法の基本
高次元でのkNNの困難
角度による改善:第3回との接続
近似最近傍探索(ANN)とスパース性の活用
RAGとの接続:埋め込み空間での近傍検索
敵対的サンプルの幾何学:高次元の「抜け道」
微小ノイズで誤分類が起きる
幾何学的解釈(比喩)
スパース性の幾何学:Mixture of Expertsの世界
MoEの基本構造
ルーティングの幾何学:kNNとの類似性
各Expertは「部分空間」を担当する(仮説)
MoEの課題と幾何学的理解
MoEとMulti-head Attentionの対比
最新動向(2024-2025年)
アライメント問題の幾何学的定式化(比喩)
未解決問題
警告
次回予告
実装ノート
敵対的サンプルの生成(FGSM)
MoEモデルの利用例(Hugging Face transformers)
Expert活性化パターンの可視化
コサイン類似度ベースのkNN
参考文献
第14回:トポロジーという顕微鏡 ~穴とループの発見~
注意事項
導入:形を超えて構造を見る
幾何学とトポロジー:二つの視点
何を測るか
コーヒーカップとドーナツ
ベッチ数:穴を数える
パーシステントホモロジー:スケールを超えた穴の追跡
問題:どのスケールで見るか
フィルトレーション:スケールの掃引
パーシステンス図:穴の「寿命」を可視化する
バーコード:もう一つの可視化
深層学習への応用
表現空間のトポロジー
研究事例:ニューラルネットワークの決定境界
TDAの現在地
まとめ
本回のメッセージ
次回予告
実装ノート:Ripserによるパーシステントホモロジー計算
基本的な使い方
パーシステンス図の可視化
表現空間の解析
学習過程のトポロジー追跡
参考文献
パーシステントホモロジー(数学的基礎)
深層学習への応用
ソフトウェア
関連するサーベイ
第15回:次の時代を設計する
導入:地図を閉じる時
Part 1: 深層学習の旅の振り返り(15分)
〜2012年頃:平坦な世界での戦い
2012年〜2017年:深層学習革命と正規化の萌芽
2017年〜2020年:Transformerと角度中心設計の躍進
2020年〜現在:時間発展と拡張幾何学
Part 2: 未解決問題と未来(20分)
問い1:統一多様体は存在するのか?
問い2:離散と連続の最適な界面は?
問い3:意識は多様体で記述できるのか?
問い4:曲率は学習可能か?
問い5:MoEの先にあるものは?
問い6:説明可能性とは何か?(幾何学的に)
Part 3: ワークショップ(45分)
課題:「あなたが考える次の座標系は何か?」
Part 4: 最終メッセージ(10分)
深層学習以前:ユークリッド空間での機械学習
今:「物理法則」としてのAI
未来:?
まとめ:3つの原則
1. 流行を追うな、空間の形を問え
2. 数式を恐れるな、しかし数式に溺れるな
3. 次のプラネタリウムを建てよう
参考文献
深層学習と幾何学の接続
Transformer とAttention
拡散モデル
Mixture of Experts
正規化と球面化
位置符号化
Mixed-curvature spaces
双曲幾何学とAI
Topological Data Analysis
Appendix 1: 量子化の幾何学
本Appendixの位置づけ
量子化とは何か
基本概念
なぜ量子化が必要か
量子化の幾何学的解釈
重み空間の「格子化」
Appendix 2: 多様体の純度問題: 幾何学がまだ解けていない課題
問題の所在
本Appendixの射程
扱うこと
扱わないこと
「正しさ」の3類型
正規化が解決したこと・しなかったこと
解決したこと(確立された効果)
解決しなかったこと(本質的な限界)
現行のデータ選別手法と幾何学的解釈
既存の道具を多様体の言葉で読み直す
測定空間に関する注意
観察
幾何学的データ選別が実用困難な理由
原理的な識別不能性
次元の呪い(表現距離・密度・曲率すべてに影響)
鶏と卵問題
論理と幾何の断絶
確信した嘘(Confident Lies): ハルシネーションの2類型
第7回との対比で見る純度問題の深刻さ
幾何学的な2類型の対比
球面上での可視化
純度問題が深刻な理由
なぜ幾何学単独では識別できないのか
動態論への伏線
将来の研究方向
~SF時代への地図(仮説レベル)~
成功指標の分類
動態論への接続
静的な問題と動的な問題の対応
動態論で扱うべき問い
参考文献
Appendix 3: 動的剪定の幾何学: 柔軟な回路がもたらす知能
注意事項
導入:静的な地図から動的な回路へ
古典的手法の「固定性」
Transformer以降の「動的性」
Attention:空間内のミクロな動的枝刈り
全結合からの選択的遮断
幾何学的解釈:内積による「視界の制限」
情報的剪定としてのAttention:計算は省かない
MoEへの接続
Mixture of Experts (MoE):マクロな部分空間スイッチング
MoEの基本構造(復習)
「全知識の動員」vs「必要な近傍の活性化」
ルーティングとしての動的剪定
部分空間スイッチングとしてのMoE(仮説的解釈)
より現実的なMoE解釈
MoEの課題:ルーティング崩壊(Routing Collapse)
スパース性(疎性)の幾何学:条件依存の有効性
高次元空間の「空虚さ」
スパース化の有効性:条件依存
SNR観点の例示モデル(概念的理解のための簡略化)
Dense表現が有利な場合
効率化技術の体系化(GQA, LoRA, MoD)
GQA (Grouped-Query Attention):視点の冗長性削減
LoRA (Low-Rank Adaptation):更新ランクの削減
MoD (Mixture of Depths):深さ方向の剪定
統一的整理
FlashAttention:メモリI/O最適化としての設計
GPUメモリ階層という制約
FlashAttentionの核心:I/O削減と再計算戦略
「パッキング」比喩の限界と正確な理解
結論:知能と抽象化
「何を計算しないか」を決める知能
抽象化としての選択
本資料の位置づけと限界
最終的な問い
実装ノート
Attentionの計算パターン比較
MoEの簡略実装
GQA (Grouped-Query Attention) の実装
参考文献
Transformer と Attention
Pruning(剪定)
Mixture of Experts (MoE)
効率化手法
情報理論と抽象化
まとめ
重要な注意点
講義本編との接続
次のステップ
Appendix 4: 空間の「物差し」再考: 2点間から情報の密度まで
注意事項
導入:「物差し」が世界を定義する
幾何学とは「測る」こと
「点」の正体:スカラではなく分布の代表
AIにとっての多層的な定規
対称的な尺度(距離):配置と構造の固定
内積:方向と大きさを測る基本道具
コサイン類似度:方向だけを見る
Attentionとの関係
双曲距離:階層構造の深さを測る
非対称な尺度(ダイバージェンス):学習の駆動力
距離では学習の方向が見えない
KLダイバージェンス:分布の非対称な隔たり
非対称性の幾何学的意味
非対称性が学習を駆動する
計量としてのフィッシャー情報:空間の感度を測る
「局所と大局」の比喩とその限界
フィッシャー情報行列:分布の感度を測る
直感的理解:ジャングルと砂漠のメタファー
数値例:正規分布の場合
自然勾配法:曲がった空間での最適化
自然勾配の幾何学的意味:「霧」をどう動かすか
実装上の課題
AttentionとMoEとの比喩的対応
付録:コード例
KLダイバージェンスの非対称性の可視化
フィッシャー情報行列の数値計算(正規分布)
自然勾配と通常勾配の比較(玩具問題)
まとめ
情報の3層構造:「雨粒」から「感度」へ
第7回との統合:「点」の二重性
ゴール
講義本編との接続
リーマンの先へ:フィンスラー計量とシンプレクティック形式
次のステップ:動態論へ
参考文献
情報幾何学(基礎)
自然勾配法
KLダイバージェンスと損失関数
双曲幾何学(階層構造)
Attention と内積
フィンスラー幾何学とシンプレクティック幾何学
MoE(Mixture of Experts)
Appendix 5: 情報幾何学における双対構造:2種類のまっすぐ
本Appendixの位置づけ
e-接続とm-接続
略称としての「双対接続」
なぜ「アフィン」なのか
「アフィンではない幾何」との対比
$\alpha$ -接続:2つの「まっすぐ」を繋ぐ連続パラメータ
$\alpha$ -接続の定義
Levi-Civita接続( $\alpha = 0$ )の位置づけ
計量整合性と双対性のトレードオフ
なぜ情報幾何では alpha=±1 なのか
双対平坦空間
ルジャンドル変換の幾何学的意味
物理学とのアナロジー
講義本編との接続まとめ
Appendix 6: 特異点の幾何学: AIはなぜ汎化するのか
正則な世界の限界
正則と特異の違い
なぜ深層学習は「特異」なのか
谷の幾何学:パラメータ数から「広さ」へ
自由エネルギーと汎化誤差
RLCT:空間の「実質的な次元」
学習の相転移
講義との接続:残差接続と相転移
特異点解消:裂け目を修復する数学
情報幾何学と特異学習理論の統合
他の回との接続
講義本編との接続まとめ
参考文献
特異学習理論(SLT)の基礎・総論
WBIC / WAIC / 一般化誤差(論文)
情報幾何学(正則モデル側の基礎)
深層学習と特異性・平坦性・grokking
数学的背景(代数幾何:特異点解消)