自由エネルギー原理と統合情報理論の架橋

自由エネルギー原理に従うシステムの運動方程式,すなわち能動的推論を行うエージェントの内部状態の運動方程式は,ランジュバン方程式を用いて記述できることが知られている.筆者はこのブログ投稿を通じて,①ランジュバン方程式にはゲージ対称性が隠れていることを明らかにし,②ランジュバン方程式をそれ自身に対する共役な表現に移し換えるゲージ変換が存在することを示す.そして最後に,ゲージ変換を通じて得られた共役なランジュバン方程式を調べることを通じて,③自由エネルギー原理と統合情報理論を架橋する道筋を明らかにする.

    \begin{eqnarray*} & \displaystyle \dot{x}^{j} = \left\{ \begin{array}{l} L^{jk}\left(f_{k} - \frac{\partial U}{\partial x^{k}} + \xi_{k}\right)        \hspace{6pt} (dt > 0) \\ L^{jk}\left(-f_{k} + \frac{\partial F}{\partial x^{k}} + \xi^{\ast}_{k}\right) \hspace{6pt} (dt < 0)  \end{array}\right. \end{eqnarray*}

1. ランジュバン方程式に潜む対称性

1−1. 確率的ハミルトニアンからのランジュバン方程式の導出

解析力学の標準的な手続きに従ってランジュバン方程式を導出する.この手続きを経由することによって,確率的ラグランジアン,確率的ハミルトニアンに潜む拘束条件,ランジュバン方程式の隠れた対称性を炙り出す.はじめに確率的ラグランジアン

(1)   \begin{eqnarray*} & \displaystyle \left\{ \begin{array}{l} \widetilde{L}(x, \dot{x}) \stackrel{\text { def }}{=} e^{\frac{\gamma}{m} t}(L(x, \dot{x}) + \xi_{j} x^{j}) \\ L(x, \dot{x}) \stackrel{\text { def }}{=} \frac{\left(\dot{x}^{j} - L^{jk} f_{k}\right) m_{jk} \left(\dot{x}^{k} - L^{kl} f_{l}\right)}{2}-U(x) \end{array}\right. \end{eqnarray*}

を導入する.ただし,添字j, k, lはランジュバン方程式の解xが持つ自由度j, k, l\left(=1,\cdots,n\right)を表している.本稿ではxをニューロン集団の状態を表す状態ベクトル,x_{j}のそれぞれを各ニューロンの状態とみなす.また,質量行列の成分m_{jk},摩擦行列の成分\gamma_{jk}L^{jk}=\left(\gamma^{-1}\right)^{jk}は,それぞれニューロン間の相互作用の強さを表す定数パラメータで,各行列が非対角成分を持つ場合,ニューロン間には相互作用が働いている.f_{j}(t)は非保存力,\xi_{j}(t)は白色ガウスノイズを表し,後者の確率平均について

(2)   \begin{eqnarray*} & \displaystyle \langle \xi_{j}(t) \rangle \stackrel{\text { def }}{=} \int_{-\infty}^{\infty} d x^{\prime} \xi_{j}(t) P\left(x^{\prime}, t\right) = 0 \\ & \displaystyle \langle \xi_{j}(t)\xi_{k}(t^{\prime}) \rangle \stackrel{\text { def }}{=} \int_{-\infty}^{\infty} d x^{\prime} \xi_{j}(t)\xi_{k}(t^{\prime}) P\left(x^{\prime}, t\right) = \frac{\delta_{jk}}{\beta}\delta(t-t^{\prime}) \end{eqnarray*}

が成り立つとしよう.ただし,\betaはシステムの逆温度を表す.このときシステムの運動量p

(3)   \begin{eqnarray*} & \displaystyle p_{j} \stackrel{\operatorname{def}}{=} \frac{\partial \widetilde{L}}{\partial \dot{x}^{j}} = e^{\frac{\gamma}{m} t} m_{jk} \left(\dot{x}^{k} - L^{kl} f_{l}\right) \end{eqnarray*}

で定義される.ルジャンドル変換を用いて,このシステムの確率的ハミルトニアンを求めると

(4)   \begin{eqnarray*} & \displaystyle \left\{\begin{array}{l} \widetilde{H}(x, p) \stackrel{\text { def }}{=} p_{j}\left(\dot{x}^{j} - L^{jk} f_{k}\right) - \widetilde{L}(x, \dot{x}) = e^{\frac{\gamma}{m} t}(H(x, p) - \xi_{j} x^{j}) \\ H(x, p) \stackrel{\text { def }}{=} e^{-\frac{2\gamma}{m} t}\frac{p_{j} \left(m^{-1}\right)^{jk} p_{k}}{2}+U(x) \end{array}\right. \end{eqnarray*}

となるので,正準方程式よりこのシステムが従う運動方程式が定まる.

(5)   \begin{eqnarray*} & \displaystyle \left\{\begin{array}{l} \dot{x}^{j} - L^{jk} f_{k} = \{x^{j}, \widetilde{H}\} = \frac{\partial \widetilde{H}}{\partial p_{j}} = e^{\frac{\gamma}{m} t} \frac{\partial H}{\partial p_{j}} = e^{-\frac{\gamma}{m} t} \left(m^{-1}\right)^{jk} p_{k} \\ \dot{p}_{j} = \{p_{j}, \widetilde{H}\} = -\frac{\partial \widetilde{H}}{\partial x^{j}} = e^{\frac{\gamma}{m} t}\left(-\frac{\partial H}{\partial x^{j}} + \xi_{j}\right) = e^{\frac{\gamma}{m} t}\left(-\frac{\partial U}{\partial x^{j}} + \xi_{j}\right) \end{array}\right. \end{eqnarray*}

(4)式の上段の式を時間パラメータtについて微分すると

(6)   \begin{eqnarray*} & \displaystyle \dot{p}_{j} = e^{\frac{\gamma}{m} t}\left[m_{jk} \left(\ddot{x}^{k} - L^{jk} \dot{f}_{k}\right) + \gamma_{jk} \left(\dot{x}^{k} - L^{kl} f_{l}\right)\right] = e^{\frac{\gamma}{m} t} m_{jk} \left(\ddot{x}^{k} - L^{kl} \dot{f}_{l}\right) + \gamma_{jk} \left(m^{-1}\right)^{kl} p_{l} \end{eqnarray*}

となるので,この(5)式と(4)式の下段の式を突き合わせると,このシステムが従う運動方程式が以下になることがわかる.
アンダーダンプ系のランジュバン方程式:

(7)   \begin{align*} m_{jk} \left(\ddot{x}^{k} - L^{kl} \dot{f}_{l}\right) + \gamma_{jk} \left(\dot{x}^{k} - L^{kl} f_{l}\right) = -\frac{\partial U}{\partial x^{j}} + \xi_{j} \\ \Longleftrightarrow \dot{p}_{j} = -\frac{\partial \widetilde{H}}{\partial x^{j}} = e^{\frac{\gamma}{m} t} m_{jk} \left(\ddot{x}^{k} - L^{kl} \dot{f}_{l}\right) + \gamma_{jk} \left(m^{-1}\right)^{kl} p_{l} \end{align*}

更にここで\ddot{x}^{k} - L^{kl} \dot{f}_{l}=0を要請すると,オーバーダンプ系のランジュバン方程式:

(8)   \begin{align*} \dot{x}^{j} = L^{jk}\left(f_{k} - \frac{\partial U}{\partial x^{k}} + \xi_{k}\right) \Longleftrightarrow \dot{p}_{j} = -\frac{\partial \widetilde{H}}{\partial x^{j}} = \gamma_{jk} \left(m^{-1}\right)^{kl} p_{l} \end{align*}

が導かれる.こうして(1),(4)式で定義される確率的ラグランジアン\widetilde{L}(x, \dot{x}),確率的ハミルトニアン\widetilde{H}(x, p)がランジュバン方程式(7),(8)式を与えることが確かめられた.

1−2. 確率的ハミルトニアンに潜む拘束条件

(8)式で定義されるランジュバン方程式から次のフォッカー・プランク方程式が導かれる.

(9)   \begin{eqnarray*} & \displaystyle \frac{\partial P(x, t)}{\partial t} = L^{jk}\left(-\frac{\partial}{\partial x^{j}} \left[ \left(f_{k} - \frac{\partial U}{\partial x^{k}}\right) P(x, t) \right]  + \frac{1}{2\beta} \frac{\partial^{2} P(x, t)}{\partial x^{j} \partial x^{k}}\right) \end{eqnarray*}

このフォッカー・プランク方程式の解P(x, t)は,時刻tにおけるニューロン集団の状態分布を表している.状態分布P(x, t)は,次の性質を満たすため,ランジュバン方程式の解xが従うべき確率分布と見做すことができる.

(10)   \begin{eqnarray*} & \displaystyle \int_{-\infty}^{\infty} d x^{\prime} P\left(x^{\prime}, t\right)=1 \quad \textrm{and} \quad P(x, t) \geq 0 \end{eqnarray*}

また確率分布が満たすべき性質(10)式から状態分布P(x, t)に対して次の性質が要請される.

(11)   \begin{eqnarray*} & \displaystyle \lim_{x \rightarrow \pm\infty} P(x, t) = 0 \quad \textrm{and} \quad \lim_{x \rightarrow \pm\infty} \frac{\partial P(x, t)}{\partial x^{j}} = 0 \end{eqnarray*}

ここで確率的エントロピーS(x),(確率的)非平衡自由エネルギーF(x)を次のように与えると

(12)   \begin{eqnarray*} & \displaystyle \left\{ \begin{array}{l} S(x) \stackrel{\text { def }}{=} -\ln{P(x, t)} \\ F(x) \stackrel{\text { def }}{=} U(x) - \frac{1}{\beta} S(x) \end{array}\right. \end{eqnarray*}

次の関係が成り立つ.

(13)   \begin{eqnarray*} & \displaystyle \left\langle\frac{\partial S(x)}{\partial x^{j}}\right\rangle = \left\langle-\frac{\partial \ln P(x, t)}{\partial x^{j}}\right\rangle=0 \end{eqnarray*}

ここから次の等式が導かれる.

(14)   \begin{eqnarray*} & \displaystyle \left\langle\frac{\partial F(x)}{\partial x^{j}}\right\rangle = \left\langle\frac{\partial U(x)}{\partial x^{j}}\right\rangle \end{eqnarray*}

したがって,オーバーダンプ系のランジュバン方程式(8)式の両辺に対して確率平均をとると

(15)   \begin{eqnarray*} & \displaystyle \left\langle\dot{x}^{j}\right\rangle = L^{jk}\left\langle f_{k} - \frac{\partial U}{\partial x^{k}}\right\rangle = L^{jk}\left\langle f_{k} - \frac{\partial F}{\partial x^{k}}\right\rangle \end{eqnarray*}

が成り立つ.(15)式をみるとオーバーダンプ系のランジュバン方程式(8)式を

(16)   \begin{eqnarray*} & \displaystyle \dot{x}^{j} = L^{jk}\left(f_{k} - \frac{\partial F}{\partial x^{k}} + \xi_{k}\right) = L^{jk}\left(f_{k} - \frac{\partial U}{\partial x^{k}} + \frac{1}{\beta}\frac{\partial S}{\partial x^{k}} + \xi_{k}\right) \end{eqnarray*}

と書き直しても良さそうだが,当初(8)式には存在しなかった\frac{1}{\beta}\frac{\partial S}{\partial x^{k}}は一体どこから現れたのだろうか?フォッカー・プランク方程式(9)式は(確率的)非平衡自由エネルギーF(x)を使って次のように書き直せる.

(17)   \begin{eqnarray*} & \displaystyle \frac{\partial P(x, t)}{\partial t} = L^{jk}\left(-\frac{\partial}{\partial x^{j}} \left[ \left(f_{k} - \frac{\partial F}{\partial x^{k}}\right) P(x, t) \right] - \frac{1}{2\beta} \frac{\partial^{2} P(x, t)}{\partial x^{j} \partial x^{k}}\right) \end{eqnarray*}

逆に,この新しいフォッカー・プランク方程式(17)式を出発点にすると,このような方程式を導く運動方程式として以下が導かれる [Nelson 67].

(18)   \begin{eqnarray*} & \displaystyle \dot{x}^{j} = L^{jk}\left(-f_{k} + \frac{\partial F}{\partial x^{k}} + \xi^{\ast}_{k}\right) = L^{jk}\left(-f_{k} + \frac{\partial U}{\partial x^{k}} + \frac{1}{\beta}\frac{\partial S}{\partial x^{k}} + \xi^{\ast}_{k}\right) \end{eqnarray*}

ここで\xi^{\ast}_{j}(t)は新しい白色ガウスノイズを表し,その確率平均について以下が成り立つ

(19)   \begin{eqnarray*} & \displaystyle \langle \xi^{\ast}_{j}(t) \rangle \stackrel{\text { def }}{=} \int_{-\infty}^{\infty} d x^{\prime} \xi^{\ast}_{j}(t) P\left(x^{\prime}, t\right) = 0 \\ & \displaystyle \langle \xi^{\ast}_{j}(t)\xi^{\ast}_{k}(t^{\prime}) \rangle \stackrel{\text { def }}{=} \int_{-\infty}^{\infty} d x^{\prime} \xi^{\ast}_{j}(t)\xi^{\ast}_{k}(t^{\prime}) P\left(x^{\prime}, t\right) = -\frac{\delta_{jk}}{\beta}\delta(t-t^{\prime}) \end{eqnarray*}

実は,このポテンシャルU(x),非保存力f_{j}(x),白色ガウスノイズ\xi_{j}(t)に対する変換

(20)   \begin{eqnarray*} & \displaystyle \left\{ \begin{array}{l} U(x) \longrightarrow -F(x) = -U(x) + \frac{1}{\beta}S(x) \\ f_{j}(t) \longrightarrow -f_{j}(t) \\ \xi_{j}(t) \longrightarrow \xi^{\ast}_{j}(t) \end{array}\right. \end{eqnarray*}

は,確率的ラグランジアン\widetilde{L}(x, \dot{x})のヘッセ行列

(21)   \begin{eqnarray*} & \displaystyle W_{jk} \stackrel{\text{def}}{=} \frac{\partial p_{j}}{\partial \dot{x}^{k}} = \frac{\partial^{2} \widetilde{L}}{\partial \dot{x}^{j} \partial \dot{x}^{k}} \end{eqnarray*}

が持つ特異性

(22)   \begin{eqnarray*} & \displaystyle \det\left(W\right) = \det\left(\frac{\partial p_{j}}{\partial \dot{x}^{k}}\right) = \det\left(\frac{\partial^{2} \widetilde{L}}{\partial \dot{x}^{j} \partial \dot{x}^{k}}\right) = 0 \end{eqnarray*}

から導かれる.確率的ラグランジアンの値は時々刻々と確率的に揺らぐため,そのヘッセ行列の値も確率的に揺らいでいる.このヘッセ行列W_{jk}が特異性((22)式の性質)を持つとき,速度\dot{x}から運動量pへの変換は1対1に定まらず,確率的ラグランジアンから確率的ハミルトニアンへのルジャンドル変換は正常に機能しなくなる.

(23)   \begin{eqnarray*} & \displaystyle \widetilde{H}(x, p) = p_{j} \dot{x}^{j}-\widetilde{L}(x, \dot{x}) = \dot{x}^{j} W_{jk} \dot{x}^{k} - \widetilde{L}(x, \dot{x}) \end{eqnarray*}

このような状況では,確率的ラグランジアン,確率的ハミルトニアンから余分な自由度を取り除く必要がある.このとき重要になるのが,特異ラグランジアンの条件((22)式の性質)から要請される拘束条件\phi^{l}(x, p)だ.この拘束条件\phi^{l}(x, p)をラグランジュの未定乗数法に従って確率的ハミルトニアンに付加することで,確率的ハミルトニアンから余分な自由度を取り除くことができる.

(24)   \begin{eqnarray*} & \displaystyle \widetilde{H}(x, p) \longrightarrow \widetilde{H}^{\prime}(x, p) \stackrel{\text { def }}{=} \widetilde{H}(x, p) + \lambda_{l} \phi^{l}(x, p) \end{eqnarray*}

この新しい確率的ハミルトニアン\widetilde{H}^{\prime}(x, p)からは余分な自由度が取り除かれているため,いつでも問題なく正準方程式を導くことができる.天下り的だが,ここで補正項\lambda_{l}\phi^{l}(x, p)を以下のようにとってみよう.

(25)   \begin{eqnarray*} & \displaystyle \lambda_{l}\phi^{l}(x, p) = e^{\frac{\gamma}{m} t}\left[ \left(\xi_{j} - \xi^{\ast}_{j}\right)x^{j} - \left(U(x) + F(x)\right) \right] \end{eqnarray*}

実は,このような補正項\lambda_{l}\phi^{l}(x, p)の固定はゲージ固定に対応し,新しい\widetilde{H}^{\prime}(x, p)に基づき次の運動方程式を導く.

(26)   \begin{eqnarray*} & \displaystyle \left\{ \begin{array}{l} \dot{x}^{j} + L^{jk} f_{k} = \{x^{j}, \widetilde{H}^{\prime}\} = \frac{\partial \widetilde{H}^{\prime}}{\partial p_{j}} = e^{-\frac{\gamma}{m} t} \left(m^{-1}\right)^{jk} p_{k} \\ \dot{p}_{j} = \{p_{j}, \widetilde{H}^{\prime}\} = -\frac{\partial \widetilde{H}^{\prime}}{\partial x^{j}} = e^{\frac{\gamma}{m} t}\left(-f_{j} + \frac{\partial F}{\partial x^{j}} + \xi^{\ast}_{j}\right) \end{array}\right. \end{eqnarray*}

結局,上記のような特別なゲージを選択した観測者にとっては,オーバーダンプ系のランジュバン方程式(\ddot{x}^{k} - L^{kl} \dot{f}_{l}=0)が

(27)   \begin{eqnarray*} & \displaystyle \dot{x}^{j} = L^{jk}\left(-f_{k} + \frac{\partial F}{\partial x^{k}} + \xi^{\ast}_{k}\right) \end{eqnarray*}

となることが確かめられた.このような観測者にとって,ニューロン集団は(確率的)非平衡自由エネルギーを減少させる方向に時間発展していくように観察される.

2. 自由エネルギー原理と統合情報理論の架橋

2−1. 非平衡自由エネルギーと統合情報量の関係

システムが平衡状態にあるとき,すなわち\frac{\partial P(x, t)}{\partial t}=0となるとき,平衡状態におけるシステムの状態分布P_{\mathrm{eq}}(x, t)について次が成り立つ.

(28)   \begin{eqnarray*} & \displaystyle \left\{ \begin{array}{l} U(x) = -\frac{1}{\beta} \ln{P_{\mathrm{eq}}(x, t)} \\ F(x) = \frac{1}{\beta} \ln{\frac{P(x, t)}{P_{\mathrm{eq}}(x, t)}} \end{array}\right. \end{eqnarray*}

このとき非平衡自由エネルギーF(t)は次のように表せる.

(29)   \begin{eqnarray*} & \displaystyle F(t) \stackrel{\text { def }}{=} \left\langle F(x) \right\rangle = \frac{1}{\beta} D_{\mathrm{KL}}\left[P(x, t) \mid P_{\mathrm{eq}}(x, t)\right] = \frac{1}{\beta} \int_{-\infty}^{\infty} d x^{\prime} P(x^{\prime}, t) \ln{\frac{P(x^{\prime}, t)}{P_{\mathrm{eq}}(x^{\prime}, t)}} \end{eqnarray*}

ただし,D_{\mathrm{KL}}(\cdots)はKL-ダイバージェンスを表している.このときシステム全体が単位時間あたりに生み出すエントロピー生成率は

(30)   \begin{align*} \sigma_{\mathrm{tot}}(t) &\stackrel{\mathrm{def}}{=} -\frac{\partial}{\partial t}[\beta F(t)] \\ &= -\frac{\partial}{\partial t} D_{\mathrm{KL}}\left[P(x, t) \mid P_{\mathrm{eq}}(x, t)\right] \\ &= \beta \int_{-\infty}^{\infty} dx^{\prime}\left\| \nabla F\left(x^{\prime}\right) \right\|^2 P\left(x^{\prime}, t\right) \end{align*}

となる.また対数Sobolev不等式から以下の不等式が導かれる(平衡状態への線形収束).

(31)   \begin{align*} D_{\mathrm{KL}}\left[ P(x, t) \mid P_{\mathrm{eq}}(x, t) \right] \leq e^{-2t} D_{\mathrm{KL}}\left[ P(x, 0) \mid P_{\mathrm{eq}}(x, t) \right]. \end{align*}

(32)   \begin{align*} F(t) \leq e^{-2t}F(0) \end{align*}

ここでシステムの運動方程式を以下のように拡張する.

    \begin{eqnarray*} & \displaystyle \left\{ \begin{array}{l} \dot{x}^{j}(t) = L^{jk}\left(f_{k}\left(x, o\right) - \frac{\partial U\left(x, o\right)}{\partial x^{k}} + \xi_{k}(t)\right) \\ a_{j}\left(x, o\right) = g_{j}\left(x, o\right) + \xi_{j}(t) \\ \dot{\theta}(\tau) = -\frac{\partial \widetilde{H}(\theta)}{\partial \theta} + \xi(\tau) \end{array}\right. \end{eqnarray*}

ハミルトニアンをサブシステムのハミルトニアンの和として書くと

(33)   \begin{align*} \widetilde{H}(\theta) = \widetilde{H}_{\mathrm{nn}}(\theta) + \widetilde{H}_{\mathrm{fb}}(\theta) + \widetilde{H}_{\mathrm{int}}(\theta) \end{align*}

ここでシステム全体の情報の統合度合いを表す統合情報量の生成率

(34)   \begin{align*} \dot{\Phi}(t) \stackrel{\text {def }}{=}& \sigma_{\mathrm{tot}}(t) - \sigma_{\mathrm{nn}}(t) - \sigma_{\mathrm{fb}}(t) \\ =& -\dot{I}_{\mathrm{nn}}(t) - \dot{I}_{\mathrm{fb}}(t) \end{align*}

を導入しよう.

したがって,システム全体の情報の統合度合いを表す統合情報量は

(35)   \begin{align*} \Phi &= \int_{0}^{t} \dot{\Phi}(t^{\prime}) d t^{\prime} \end{align*}

このようにして自由エネルギー原理と統合情報理論を架橋できることが明らかになった.

参考文献

  1. 林 祐輔; 自由エネルギー原理と物理学. 人工知能 2023; 38 巻 6 号 p. 847-852.
  2. Takuya Isomura, Karl Friston; Reverse-Engineering Neural Networks to Characterize Their Cost Functions. Neural Comput 2020; 32 (11): 2085–2121.
  3. Takuya Isomura, Hideaki Shimazaki and Karl Friston; Canonical neural networks perform active inference. Commun Biol 2022; 5, 55.
  4. Maxwell J. D. Ramstead, Dalton A. R. Sakthivadivel, Conor Heins, Magnus Koudahl, Beren Millidge, Lancelot Da Costa, Brennan Klein and Karl Friston; On Bayesian mechanics – a physics of and by beliefs. Interface Focus 2023; Volume 13, Issue 3.
  5. Edward Nelson; Dynamical Theories of Brownian Motion. Princeton University Press 1967.
  6. Kunio Yasue; Quantum mechanics and stochastic control theory. Journal of Mathematical Physics 1981, 22, 1010–1020
  7. Adam B. Barrett and Anil K. Seth; Practical Measures of Integrated Information for Time-Series Data. PLOS Computational Biology 2011; 7(1): e1001052.
  8. Max Tegmark; Improved Measures of Integrated Information. PLOS Computational Biology 2016; 12(11): e1005123.
  9. Nadine Spychala and Miguel Aguilera; Exploring the relation of variational inference and integrated information in a minimal model. Proceedings of the ALIFE 2023: Ghost in the Machine; pp. 52.
  10. Miguel Aguilera and Ezequiel A. Di Paolo; Integrated information in the thermodynamic limit. Neural Networks 2019; Volume 114: Pages 136-146.

コメントを残す