カール・フリストンの一般化勾配降下法 (generalized gradient descent) について

(1)   \begin{eqnarray*} & \displaystyle \dot{\tilde{\mu}}(t)=D \tilde{\mu}(t)-\partial_{\tilde{\mu}(t)} F(\tilde{s}(t), \tilde{\mu}(t), t) \end{eqnarray*}

乾敏郎・阪口豊『自由エネルギー原理入門(2021)』p.36 に「 \textcolor{red}{\dot{\tilde{\mu}}(t)} は平均の運動に対応し,\textcolor{red}{D\tilde{\mu}(t)} は運動の平均に対応する」というミステリアスな一文とともに期待値についての勾配更新式(1)式が登場する.しかし,同書の文中では上式の導出について一切触れられておらず,あたかもこの一般化された勾配更新式が天から降ってきたかのような印象を与える.そこでこのノートでは,この印象的な(説明不足な?)勾配更新式(1)式とミステリアスな一文の解読を試みる.

  • この一文を素直に読むと \dot{\tilde{\mu}}(t)D\tilde{\mu}(t) は一般には一致せず,等号 \dot{\tilde{\mu}}(t) = D\tilde{\mu}(t) が成立する経路でのみ,自由エネルギーの経路積分(変分作用)の最小化が起こる.そもそも経路積分はファインマンが量子力学を自分なりのやり方で理解するために開発したツールだった.変分作用の最小化を与える経路が量子力学的なゆらぎを持たない古典力学解と一致することを思い起こせば,等号 \dot{\tilde{\mu}}(t) = D\tilde{\mu}(t) が成立する経路は,確率変数 \tilde{\mu}(t) の確率性を忘れて,通常の数のように扱うことが許される唯一の経路だという類推が働く.
  • 時間に依存する確率変数の時間微分については一般には以下の関係があることが知られている.

    (2)   \begin{eqnarray*} & \displaystyle E_{q(X(t))}[\dot{X}(t)] \neq \frac{d}{d t} E_{q(X(t))}[X(t)] \end{eqnarray*}

    これを時間微分した変化量を「運動」と呼ぶフリストンの流儀にならって言い換えれば「運動の平均 ≠ 平均の運動」ということになる.逆に「運動の平均 = 平均の運動」が成り立つとき,そのような確率過程 X(t) を強微分可能な確率過程と呼ぶ.この確率過程の性質と上の一文の間にはなにか関係があるだろうか?

1. 確率変数に対する「速度」の定義

1−1. 用語の確認

まずは基礎的な用語について確認しておこう.隠れ状態 x(t) の一般化状態ベクトルを

(3)   \begin{eqnarray*} & \displaystyle  \tilde{x}(t)=\left(\begin{array}{c} x(t) \\ x^{\prime}(t) \\ x^{\prime \prime}(t) \\ \vdots \end{array}\right) \end{eqnarray*}

とする.第2成分以降は隠れ状態 x(t) を繰り返し時間微分した量 x^{\prime}(t) = \frac{d}{dt} x(t),\ x^{\prime \prime}(t) = \frac{d}{dt} x^{\prime}(t) ,\ \ldots になっている.ここで隠れ状態 x(t) は事後分布 q(x(t)) = \mathcal{N}\left(\mu(t), \Sigma(t)\right) に従う確率変数であることに注意しておこう .このとき一般化状態ベクトル \tilde{x}(t) の期待値は

(4)   \begin{eqnarray*} & \displaystyle  \tilde{\mu}(t)=E_{q(\tilde{x}(t))}[\tilde{x}(t)] \end{eqnarray*}

で与えられる(磯村拓也「自由エネルギー原理の解説(2018)」p.75 を参照).隠れ状態 x(t) と期待値 \mu(t) との関係をみるために成分を具体的に書くと

(5)   \begin{eqnarray*} & \displaystyle  \tilde{\mu}(t)=\left(\begin{array}{c} \mu(t) \\ \mu^{\prime}(t) \\ \mu^{\prime \prime}(t) \\ \vdots \end{array}\right)=E_{q(\tilde{x}(t))}\left[\left(\begin{array}{c} x(t) \\ x^{\prime}(t) \\ x^{\prime \prime}(t) \\ \vdots \end{array}\right)\right]=\left(\begin{array}{c} E_{q(x(t))}[x(t)] \\ E_{q(x(t))}\left[x^{\prime}(t)\right] \\ E_{q(x(t))}\left[x^{\prime \prime}(t)\right] \\ \vdots \end{array}\right) \end{eqnarray*}

となっている.次にブロック行列演算子 D を以下のように定義する.

(6)   \begin{eqnarray*} & \displaystyle  \begin{aligned} D \tilde{\mu}(t) &=\left[\begin{array}{ccccc} 0 & I_{n} & 0 & \cdots & 0 \\ 0 & 0 & I_{n} & & 0 \\ \vdots & \vdots & & \ddots & \vdots \\ 0 & 0 & 0 & & I_{n} \\ 0 & 0 & 0 & \cdots & 0 \end{array}\right]\left(\begin{array}{c} \mu(t) \\ \mu^{\prime}(t) \\ \mu^{\prime \prime}(t) \\ \vdots \end{array}\right) \\ =&\left(\begin{array}{c} \mu^{\prime}(t) \\ \mu^{\prime \prime}(t) \\ \mu^{\prime \prime \prime}(t) \\ \vdots \end{array}\right)=\left(\begin{array}{c} E_{q(x(t))}\left[x^{\prime}(t)\right] \\ E_{q(x(t))}\left[x^{\prime \prime}(t)\right] \\ E_{q(x(t))}\left[x^{\prime \prime \prime}(t)\right] \\ \vdots \\ \end{array}\right) \end{aligned} \end{eqnarray*}

ただし,(6)式の最後の等号の導出には(5)式を使った.ブロック行列演算子 D は微分演算子のようで実は微分には関与しないことに注意しておこう.ブロック行列演算子 \textcolor{red}{D} は一般化状態ベクトルの一つ下の成分を一つ上へ押し上げる操作を行う演算子でしかない.

1−2. 平均の運動 \dot{\tilde{\mu}}(t) \neq 運動の平均 D \tilde{\mu}(t)の証明

これで用語の確認ができたので,いよいよ本題に入っていこう.

まず隠れ状態 x(t) とその期待値 \mu(t) について,時間 t を1ステップだけ進めた(ステップサイズ h : t \rightarrow t+h )ときの隠れ状態 x(t+h) の期待値 \mu(t+h) を考える.

(7)   \begin{eqnarray*} & \displaystyle  \begin{aligned} \mu(t) &=E_{q(x(t))}[x(t)] \\ \mu(t+h) &=E_{q(x(t+h))}[x(t+h)] \end{aligned} \end{eqnarray*}

これを使うと「平均の運動 \dot{\tilde{\mu}}(t)」の各成分を具体的に書き下すことができることをみていく.期待値の一般化状態ベクトル \tilde{\mu}(t) の運動(時間微分)は

(8)   \begin{eqnarray*} & \displaystyle  \dot{\tilde{\mu}}(t)=\frac{d}{d t}\left(\begin{array}{c} \mu(t) \\ \mu^{\prime}(t) \\ \mu^{\prime \prime}(t) \\ \vdots \end{array}\right)=\frac{d}{d t}\left(\begin{array}{c} E_{q(x(t))}[x(t)] \\ E_{q(x(t))}\left[x^{\prime}(t)\right] \\ E_{q(x(t))}\left[x^{\prime \prime}(t)\right] \\ \vdots \end{array}\right)=\left(\begin{array}{c} \dot{\mu}(t) \\ \dot{\mu}^{\prime}(t) \\ \dot{\mu}^{\prime \prime}(t) \\ \vdots \end{array}\right) \end{eqnarray*}

と書ける.(7)〜(8)式より,「平均の運動 \dot{\tilde{\mu}}(t)」の第1成分は以下のように書き直せる.

(9)   \begin{eqnarray*} & \displaystyle  \begin{aligned} \dot{\mu}(t) &=\frac{d}{d t} E_{q(x(t))}[x(t)] \\ &=\frac{d}{d t} \mu(t) \\ &=\lim _{h \rightarrow 0} \frac{\mu(t+h)-\mu(t)}{h} \\ &=\lim _{h \rightarrow 0} \frac{E_{q(x(t+h))}[x(t+h)]-E_{q(x(t))}[x(t)]}{h} \end{aligned} \end{eqnarray*}

一方,「運動の平均 D \tilde{\mu}(t)」の第1成分は(6)式より

(10)   \begin{eqnarray*} & \displaystyle  \begin{aligned} \mu^{\prime}(t) &=E_{q(x(t))}\left[x^{\prime}(t)\right] \\ &=E_{q(x(t))}\left[\frac{d}{d t} x(t)\right] \\ &=E_{q(x(t))}\left[\lim _{h \rightarrow 0} \frac{x(t+h)-x(t)}{h}\right] \\ &=\lim _{h \rightarrow 0} \frac{E_{q(x(t))}[x(t+h)]-E_{q(x(t))}[x(t)]}{h} \end{aligned} \end{eqnarray*}

となるので「平均の運動 \textcolor{red}{\dot{\tilde{\mu}}(t)}」の第1成分 \textcolor{red}{\dot{\mu}(t)} と「運動の平均 \textcolor{red}{D \tilde{\mu}(t)}」の第1成分 \textcolor{red}{\mu^{\prime}(t)} が一致しないことは明らかだ(と言いつつ(10)式は(9)式との比較を明確にするためのお気持ち的展開で厳密な展開ではない点には注意).実際,各第1成分の差をとると

(11)   \begin{eqnarray*} & \displaystyle  \dot{\mu}(t)-\mu^{\prime}(t)=\lim _{h \rightarrow 0} \frac{E_{q(x(t+h))}[x(t+h)]-E_{q(x(t))}[x(t+h)]}{h} \end{eqnarray*}

となるが,2つの期待値 \textcolor{red}{E_{q(x(t+h))}\left[\ \right], \ E_{q(x(t))}\left[\ \right]}\textcolor{red}{q(x(t+h)) = q(x(t))} とならない限り一致しないことがわかる.この(11)式は

(12)   \begin{eqnarray*} & \displaystyle  \dot{\mu}(t)-\mu^{\prime}(t)=\lim _{h \rightarrow 0} \frac{E_{q(x(t))}[x(t)]-E_{q(x(t-h))}[x(t)]}{h} \end{eqnarray*}

のようにも書き直せる.この(12)式は,磯村拓也「自由エネルギー原理の解説(2018)」p.75 にある

ここで D \tilde{{\mu}}(t) は1時刻前までの感覚入力から求めた隠れ変数の変化量の推定値である.一方で \dot{\tilde{\mu}}(t) の計算には現時刻の感覚入力から求めた尤度の勾配による補正(摂動)が加えられている.すなわち(1)式は現時刻の感覚入力を用いることによる,古い変化量推定値 D \tilde{\mu}(t) から新しい変化量推定値 \dot{\tilde{\mu}}(t) への更新を意味している

と書かれていることを見事に体現している.第2成分以降についても同様の「平均の運動 \dot{\tilde{\mu}}(t)」と「運動の平均 D \tilde{\mu}(t)」の不一致が起こるので,一般化状態ベクトル \tilde{\mu}(t) の勾配更新式として,変分作用 \mathcal{S} = \int dt\ F(\tilde{s}(t), \tilde{\mu}(t), t) の最小化を目標に,このギャップを減少させる方向に進む勾配更新式を考えると

(13)   \begin{eqnarray*} & \displaystyle  \begin{gathered} \dot{\mu}(t)=\mu^{\prime}(t)-\partial_{\mu(t)} F(s(t), \mu(t), t) \\ \Downarrow \\ \dot{\tilde{\mu}}(t)=D \tilde{\mu}(t)-\partial_{\tilde{\mu}(t)} F(\tilde{s}(t), \tilde{\mu}(t), t) \end{gathered} \end{eqnarray*}

となって(1)式を導くことができた.このような確率的にゆらぐ変数に対する新しい種類の勾配降下法を,フリストンらは一般化勾配降下法と呼んでいる(確率変数に対する新しい種類の「速度」の定義とみても良いかもしれない).

(14)   \begin{eqnarray*} & \displaystyle  \dot{\tilde{\mu}}(t)-D \tilde{\mu}(t)=\lim _{h \rightarrow 0} \frac{E_{q(\tilde{x}(t))}[\tilde{x}(t)]-E_{q(\tilde{x}(t-h))}[\tilde{x}(t)]}{h} \end{eqnarray*}

一般化勾配降下法のお気持ち的表現

参考文献

  1. 乾敏郎・阪口豊『自由エネルギー原理入門(2021)』
  2. 磯村拓也「自由エネルギー原理の解説(2018)」
  3. Karl Friston (2008) Hierarchical Models in the Brain. PLoS Comput Biol 4(11): e1000211.
  4. Friston KJ, Trujillo-Barreto N, Daunizeau J (2008) DEM: a variationaltreatment of dynamic systems. Neuroimage 41(3): 849–885.

コメントを残す