能動的推論を自然に導くニューラルネット(正準ニューラルネット)の運動方程式は,磯村拓也・カール・フリストン「コスト関数の性質を明らかにするためのニューラルネットのリバースエンジニアリング (2020)」によって初めて科学の表舞台に引き揚げられた.その運動方程式は
としたとき
(1) 
として与えられる.ただし,
は時刻
における正準ニューラルネットの中間層の状態,
はその時間微分
を表している.この正準ニューラルネットは,運動方程式(1)式から導かれるコスト関数
が能動的推論を行うエージェントの変分ベイズ自由エネルギー
と厳密な対応関係を持つ,というある種の深遠さを感じさせる印象的な性質を備えている.

つまり,上の対応関係に従えば,ニューラルネットが淡々と行っている最適化のプロセスをいつでも能動的推論のプロセスに読み替えることができる.脳内に正準ニューラルネットと同型のニューラルネットがあれば,その最適化プロセスを環境と相互作用しながら能動的推論を行うエージェントのベイズ最適化のプロセスと同一視できる.こうした構造が存在しうることを示した点で冒頭の論文は素晴らしい.しかし,同論文はコスト関数の物理的な意味までは明らかにしてくれない.通常の電気回路が統計力学の言葉によって理解されるように,1つ1つのニューロンを電気回路とみなし,その電気回路を連結させた正準ニューラルネットもまた統計力学の言葉によって理解できるはずだ.この観点に立てば,コスト関数は何らかの形で統計力学に登場する物理量と関係しなければならない.そこでこのノートでは,コスト関数と物理量の間にあるはずのミッシングピースの追跡を試みる.
1. 自由エネルギー原理の多面性
1−1. 用語の確認
まず正準ニューラルネットの基本的な性質について確認しておこう.はじめにノート冒頭に登場した(1)式を,
として
(2) 
のように書き直してみよう.ここに登場する
はシグモイド関数とその逆関数を表していて,シグモイド関数と呼ばれる関数のグループに属していれば具体的な関数形によらずに同様の議論を展開できる.が,以下では,ロジスティック関数とその逆関数であるロジット関数を使って議論を進めていくことにする(従って
は
の範囲を動く変数になる).
(3) 
このとき正準ニューラルネットのコスト関数
は以下になる.
(4) 
ただし,最後の等号の導出には(3)式を使った.このコスト関数
は能動的推論を行うエージェントの変分ベイズ自由エネルギー
と厳密な対応関係を持つことが知られている.
(5) 

ここで議論の見通しをよくするために
として最も単純化された正準ニューラルネット
(6) 
を考えることにしよう.このときコスト関数
は
(7) 
となり,シャノンエントロピー
の符号を逆向きにしたものと一致する.良いタイミングなので,ここでシャノンエントロピーと物理量の関係について確認しておこう.ヘルムホルツの自由エネルギー
,内部エネルギー
,ギブズエントロピー
は系の分配関数
と逆温度
を使って次のように書き表せる(なお,以下では単位系
をとりシャノンエントロピーとギブズエントロピーを区別せずに議論する).
(8) 
よって最も単純化された正準ニューラルネット(6)式の場合,コスト関数
とギブズエントロピー
は
(9) 
の対応関係を持つことがわかった.
1−2. ホップフィールド模型
これで用語の確認ができたので,いよいよ本題に入っていこう.正準ニューラルネットのコスト関数と物理量の関係を調べるために,正準ニューラルネットを物理系のモデルに翻訳することを考えていく.
番目の入力
に対応する
番目のニューロンの興奮パターン(教師ラベル)
と実際の発火状態
を考えて,どちらもイジング変数
をとるとする.そして各ニューロンの発火状態が入力に対応する興奮パターンを再現できたとき想起(連想記憶)に成功したとみなす.このようなランダムなイジング模型を用いたニューラルネットのモデルをホップフィールド模型と呼び,正準ニューラルネットと同様にヘッブ則
に基づいてシナプス加重
を更新していくモデルになっている(例えば,このホップフィールド模型に『ザ・シンプソンズ』の登場人物の画像を記憶させ,一部が欠損した画像から元の登場人物を想起させるといったタスクを解かせることができる).

このホップフィールド模型のハミルトニアン
と分配関数
はそれぞれ
(10) 
と書ける.ただし,分配関数
の1行目から2行目の等号にかけてガウス積分の公式
(11) ![]()
を使った.ここで2行目の等号以降に表れる変数
を秩序パラメータと呼び,各ニューロンの発火状態が入力に対応する興奮パターンと平均的にどれだけ近いかを表す指標になっている.
(12) ![]()
このような設定のもとでニューロンの数
が非常に大きな値をとる状況を考えるために熱力学的極限
をとると,ホップフィールド模型の自由エネルギー
はラプラスの方法
(13) 
により
(14) 
と書き表せる.ここでニューロン1つ当たりの自由エネルギー
を考えると
(15) ![]()
また,この自由エネルギー
を最小にする秩序パラメータ
は
(16) ![]()
で与えられる.さらに
が十分大きな極限では興奮パターン毎の平均はニューロン毎の配位平均
に置き換えられ
(17) ![Rendered by QuickLaTeX.com \begin{align*} f &=\frac{1}{2} \boldsymbol{m}^{2}-\frac{1}{\beta}\left[\ln (2 \cosh \beta \boldsymbol{m} \cdot \boldsymbol{\xi})\right] \\ \boldsymbol{m} &=\left[\boldsymbol{\xi} \tanh \beta \boldsymbol{m} \cdot \boldsymbol{\xi}\right] \end{align*}](https://i0.wp.com/hayashiyus.jp/wp-content/ql-cache/quicklatex.com-1503140beea5a093e9ceafee7b328495_l3.png?resize=272%2C71&ssl=1)
となるので,興奮パターンが1つしかない場合を考えると
となって(17)式は
(18) ![Rendered by QuickLaTeX.com \begin{align*} \begin{gathered} \boldsymbol{m} = \left(m, 0,0, \ldots\right) \\ m =\left[\xi^{1} \tanh \left(\beta m \xi^{1}\right)\right]=\tanh \beta m \end{gathered} \end{align*}](https://i0.wp.com/hayashiyus.jp/wp-content/ql-cache/quicklatex.com-39ed6219f16c69e312da8e5406657667_l3.png?resize=274%2C52&ssl=1)
となることがわかる.このときニューロン1つ当たりの自由エネルギー
,ニューロン1つ当たりの内部エネルギー
,ニューロン1つ当たりのギブズエントロピー
はそれぞれ
(19) ![Rendered by QuickLaTeX.com \begin{align*} f &=-\frac{1}{\beta}[\ln (2 \cosh \beta m)] + \frac{1}{2} m^2 \\ \epsilon &= -m \tanh \beta m + \frac{1}{2}m^2 \\ s &=- \beta m \tanh \beta m +\ln \left(2 \cosh \beta m\right) \end{align*}](https://i0.wp.com/hayashiyus.jp/wp-content/ql-cache/quicklatex.com-13f29c36041e8307a89cd819a778c335_l3.png?resize=285%2C115&ssl=1)
ここでニューロンの発火状態
がイジング変数
ではなく
の範囲を動くように値域をとりなおす変換を考えると
(20) ![]()
となるので,
の対応関係を仮定すれば
が導かれる.
(21) 
このホップフィールド模型は
(
)の低温極限で秩序パラメータ
が
のどちらかに凍りつき,入力に対応する興奮パターンを正確に再現する(想起に成功する)安定状態となることが知られている.

さらにこの低温極限では
も成り立つので,ホップフィールド模型という物理系の自由エネルギー
が正準ニューラルネットのコスト関数
と対応関係を持つことがわかる.こうして正準ニューラルネットのコスト関数
,能動的推論を行うエージェントの変分ベイズ自由エネルギー
を,物理系の自由エネルギー
に読み替えられることが明らかになった.
(22) 
ところで最も単純化された正準ニューラルネット(6)式を導入する際,
を仮定した.実はその背景には
,すなわち
(23) 
という関係式が仮定されていた.つまり,
を仮定することには正準ニューラルネットの中間層への入力
を一定値に固定するという意味があった.入力が一定値に固定されたということは,入力が1種類に限定されたと言い換えても良い.そのため中間層の興奮パターンも1種類に限定される.こうして(22)式を導くまでに導入された様々な仮定(熱力学的極限
,興奮パターンの数を1つに限定
,低温極限
)にそれぞれ物理的な妥当性があることがわかった.
(24) 
参考文献
- Takuya Isomura, Karl Friston; Reverse-Engineering Neural Networks to Characterize Their Cost Functions. Neural Comput 2020; 32 (11): 2085–2121.
- Takuya Isomura, Hideaki Shimazaki and Karl Friston; Canonical neural networks perform active inference. Commun Biol 2022; 5, 55.
- Takuya Isomura; Active inference leads to Bayesian neurophysiology. Neurosci Res 2022, 175, pp. 38-45.
- Hidetoshi Nishimori; Statistical Physics of Spin Glasses and Information Processing: an Introduction. Oxford University Press 2001.
- Haiping Huang; Statistical Mechanics of Neural Networks. Springer 2021.
- Hubert Ramsauer, Bernhard Schäfl, Johannes Lehner, Philipp Seidl, Michael Widrich, Thomas Adler, Lukas Gruber, Markus Holzleitner, Milena Pavlović, Geir Kjetil Sandve, Victor Greiff, David Kreil, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter; Hopfield Networks is All You Need. International Conference on Learning Representations (ICLR) 2021.
“自由エネルギー原理の多面性とその物理的解釈について” への2件のフィードバック