ニューラルネットの場の量子論的解釈

場の量子論において，自由場は関数空間上のガウス分布として記述され，相互作用場は自由場の作用への非ガウス的な補正（摂動）によって記述される．面白いことに，中間層の幅を無限に広くとった深層学習モデルの一部がやはりガウス過程で記述できることが知られており，そのような性質をもつ深層学習モデルの一群はまとめて漸近ニューラルネットと呼ばれている．更に，この漸近ニューラルネットの中間層の幅を無限の広がりをもつ漸近極限から有限幅に狭めていくにつれて，その振る舞いは非ガウス過程によって記述されるようになっていく．最近，この2つの理論（Wilson流の有効場の理論と漸近ニューラルネットの理論）の間にNN-QFT対応と呼ばれる自然な対応関係をつけられることがわかってきた¹²³．そこでこの記事では，同論文を題材として「ニューラルネットの場の量子論的解釈」を紹介したい．

１. ニューラルネットの場の量子論的解釈

１−１. 漸近ニューラルネットとガウス過程，自由場の関係

まず，ある確率分布から得られるパラメータ $\theta \sim P(\theta)$ と中間層の幅 $N$ の自由度を持つニューラルネットを

(1) $\begin{eqnarray*} & \displaystyle f_{\theta, N}: \mathbb{R}^{d_{\text {in }}} \rightarrow \mathbb{R}^{d_{\text {out }}} \end{eqnarray*}$

と入力と出力を結びつける関数 $f$ として表すことにする．また，中間層の幅 $N \rightarrow \infty$ の極限をとったものを漸近ニューラルネットと呼ぶことにする．このとき入力 $\left\{x_{1}, \ldots, x_{k}\right\}$ に対する漸近ニューラルネットの出力はガウス過程に従うことが知られている（下図参照）．

(2) $\begin{eqnarray*} & \displaystyle \left\{f\left(x_{1}\right), \ldots, f\left(x_{k}\right)\right\} \sim \mathcal{N}\left(\mu, \ \Xi^{-1}\right) \end{eqnarray*}$

つまり，中間層の幅 $N \rightarrow \infty$ の極限をとった漸近ニューラルネットでは，確率的にゆらぐ中間層の各ニューロンからの信号の和の分布が中心極限定理によってガウス分布になることが導かれる．この関係が中間層の各層で成り立つので漸近ニューラルネットの信号伝播はガウス過程に従う．ここで逆共分散行列 $\Xi\left(x, x^{\prime}\right)$ をガウス過程のカーネル関数 $K\left(x, x^{\prime}\right)$ を用いて $\left(\Xi^{-1}\right)_{i j}=K_{i j} := K\left(x_{i}, x_{j}\right)$ と定義しておく． $\Xi\left(x, x^{\prime}\right) = K^{-1}\left(x, x^{\prime}\right)$ より

(3) $\begin{eqnarray*} & \displaystyle \int d^{d_{\mathrm{in}}} x^{\prime} K\left(x, x^{\prime}\right) \Xi \left(x^{\prime}, y\right) = \delta^{\left(d_{\mathrm{in}}\right)}\left(x-y\right) \end{eqnarray*}$

が成り立つ．ガウス過程の作用積分を

(4) $\begin{eqnarray*} & \displaystyle S_{\mathrm{GP}} = \frac{1}{2} \int d^{d_{\mathrm{in}}} x d^{d_{\mathrm{in}}} x^{\prime} f(x) \Xi\left(x, x^{\prime}\right) f\left(x^{\prime}\right) \end{eqnarray*}$

であらわすことにすると， $\left\{f\left(x_{1}\right), \ldots, f\left(x_{k}\right)\right\} \sim \mathcal{N}\left(\mu, \ \Xi^{-1}\right)$ のとき

(5) $\begin{eqnarray*} & \displaystyle \hspace{-280pt} -\log p\left(f | \theta\right) = -\log \int d^{d_{\mathrm{in}}} x \ p\left(f(x) | \theta, x\right) p(x) \\ & \displaystyle \hspace{96pt} = \frac{1}{2} \int d^{d_{\mathrm{in}}} x d^{d_{\mathrm{in}}} x^{\prime} \left(f(x)-\mu\right)^{\mathrm{T}} \Xi\left(x, x^{\prime}\right) \left(f(x^{\prime}) - \mu\right) + \frac{1}{2} \int d^{d_{\mathrm{in}}} x d^{d_{\mathrm{in}}} x^{\prime} \log \operatorname{det}\left(\Xi^{-1}\left(x, x^{\prime}\right)\right) + \frac{k}{2} \log 2 \pi \\ & \displaystyle \hspace{-345pt} \simeq S_{\mathrm{GP}} \end{eqnarray*}$

となるので，定数項を除けば作用積分が対数尤度と一致することがわかる．このときガウス過程の分配関数を $Z_{\mathrm{GP}} := \int d f e^{-S_{\mathrm{GP}}}$ と定めると，ガウス過程の確率分布（関数空間上の漸近ニューラルネット $f$ の分布）

(6) $\begin{eqnarray*} & \displaystyle p(f) = \frac{e^{-S_{\mathrm{GP}}}}{Z_{\mathrm{GP}}} \\ & \displaystyle \int \mathcal{D} f p(f) = 1 \end{eqnarray*}$

を得る（ただし， $\mathcal{D} f$ は関数空間における経路積分測度をあらわしている）．このガウス過程の確率分布を使うとカーネル関数は

(7) $\begin{eqnarray*} & \displaystyle K(x, y) := \int \mathcal{D} f p(f) f(x) f(y) \end{eqnarray*}$

と書くことができる．このときガウス過程の $n$ 点グリーン関数は

(8) $\begin{eqnarray*} & \displaystyle G^{(n)}_{\mathrm{GP}} \left(x_{1}, \ldots, x_{n}\right) = \frac{\int \mathcal{D} f f\left(x_{1}\right) \ldots f\left(x_{n}\right) e^{-S_{\mathrm{GP}}}}{Z_{\mathrm{GP}}} \end{eqnarray*}$

で与えられる．一方，よく知られているように場の量子論という科学理論における自由スカラー場の作用積分は

(9) $\begin{eqnarray*} & \displaystyle S_{\mathrm{QFT}}[\phi] = \int d^{d} x \phi(x) \left(\square+m^{2}\right) \phi(x) \end{eqnarray*}$

と書ける．ただし， $\square := \partial_{\mu} \partial^{\mu}$ ．自由場の分配関数は $Z_{\mathrm{QFT}} = \int \mathcal{D} \phi e^{-S_{\mathrm{QFT}}[\phi(x)]}$ となるので，自由場の確率分布

(10) $\begin{eqnarray*} & \displaystyle p(\phi) = \frac{e^{-S_{\mathrm{QFT}}}}{Z_{\mathrm{QFT}}} \\ & \displaystyle \int \mathcal{D} \phi p(\phi) = 1 \end{eqnarray*}$

を得る（ただし， $\mathcal{D} \phi$ は場の空間における経路積分測度をあらわしている）．また自由場の $n$ 点グリーン関数は

(11) $\begin{eqnarray*} & \displaystyle G^{(n)}_{\mathrm{QFT}} \left(x_{1}, \ldots, x_{n}\right) = \frac{\int \mathcal{D} \phi \phi\left(x_{1}\right) \ldots \phi\left(x_{n}\right) e^{-S_{\mathrm{QFT}}}}{Z_{\mathrm{QFT}}} \end{eqnarray*}$

と書けるので $(8)$ 式との対応関係がみてとれる．こうして漸近ニューラルネットと自由場の場の量子論の対応関係（NN-QFT対応）を確認することができた．

１−２. 有限幅のニューラルネットと非ガウス過程，摂動論（場の量子論）の関係

無限幅のニューラルネット（漸近ニューラルネット）の中間層の幅を徐々に狭めて有限幅のニューラルネットに移行していくと，はじめガウス過程に従っていた出力の分布は非ガウス過程に従うようになっていく．冒頭で紹介した論文が明らかにしたことは，入力データの空間を時空とみなしたとき，漸近ニューラルネットが自由場に対応したように，有限幅のニューラルネットが相互作用場に対応するということだった．

相互作用を持たない自由粒子は，お互い素通りするだけで観測することも触れることもできない．そのため，物理学者の主要な関心は自由場の場の量子論ではなく相互作用場の場の量子論に集まる．では，どうやって相互作用場の場の量子論を構築するかと言うと，素粒子を加速して高エネルギー状態にしたうえで衝突・散乱させ，その散乱問題の遷移確率を精確に予測できるかどうかによって理論の正しさを検証していく．この散乱問題の遷移確率を計算する際，重要になるのが１−１で登場した $n$ 点グリーン関数になる．

$n$ 点グリーン関数を計算するために，まず1変数ガウス積分の公式について思い出そう．

(12) $\begin{eqnarray*} & \displaystyle \int_{-\infty}^{\infty} d q e^{-\frac{a}{2} q^{2}-J q} = \sqrt{\frac{2 \pi}{a}} e^{\frac{1}{2 a} J^{2}} \quad(a \in \mathbb{C}, \operatorname{Re}(a)>0) \end{eqnarray*}$

これはすぐに多変数ガウス積分の公式に拡張できる．

(13) $\begin{eqnarray*} & \displaystyle \int_{-\infty}^{\infty} d q_{1} \cdots \int_{-\infty}^{\infty} d q_{N} \exp \left[-\frac{1}{2} \sum_{i, j=1}^{N} q_{i} A_{i j} q_{j} - \sum_{i=1}^{N} J_{i} q_{i}\right] = \sqrt{\frac{(2 \pi)^{N}}{\operatorname{det} A}} \exp \left[\frac{1}{2} \sum_{i, j=1}^{N} J_{i}\left(A^{-1}\right)_{i j} J_{j}\right] \end{eqnarray*}$

これを行列表示で書き直すと

(14) $\begin{eqnarray*} & \displaystyle \int_{-\infty}^{\infty} d^{N} \vec{q} \exp \left[-\frac{1}{2} \vec{q}^{T} A \vec{q}-\vec{J}^{T} \vec{q}\right] = \sqrt{\frac{(2 \pi)^{N}}{\operatorname{det} A}} \exp \left[\frac{1}{2} \vec{J}^{T} A^{-1} \vec{J}\right] \end{eqnarray*}$

と書ける．また， $S[\vec{q}] := \frac{1}{2} \vec{q}^{T} A \vec{q}+\vec{J}^{T} \vec{q}$ と定義すると，この公式は

(15) $\begin{eqnarray*} & \displaystyle \int_{-\infty}^{\infty} d^{N} \vec{q} e^{-S[\vec{q}]} = \sqrt{\frac{(2 \pi)^{N}}{\operatorname{det} A}} e^{-\left.S[\vec{q}]\right|_{\delta S[\vec{q}]=0}} \end{eqnarray*}$

と書き直せる．ここで右辺の $\left.S[\vec{q}]\right|_{\delta S[\vec{q}]=0}$ は（ $S[\vec{q}]$ を作用積分とみなしたときの）作用原理 $\delta S[\vec{q}]=0 \Leftrightarrow A \vec{q}+\vec{J}=0$ の解を $S[\vec{q}]$ に代入したものになっている．つまり， $S[\vec{q}]$ が $\vec{q}$ の2次形式（自由粒子に対応）で与えられるときは，ガウス積分を実行することと，運動方程式（ $\Leftrightarrow$ 作用原理 $\delta S[\vec{q}]=0$ ）を解いてその解を $S[\vec{q}]$ に代入することは等価になる．ガウス積分の公式は物理学者にとってはこのようなメッセージを持っている．

この多変数ガウス積分の公式を使えば，ガウス過程の分配関数は

(16) $\begin{eqnarray*} & \displaystyle Z_{\mathrm{GP}}[J] = \frac{\int \mathcal{D} f e^{-S_{\mathrm{GP}}-\frac{1}{2} \int d^{d_{\mathrm{in}}} x J(x) f(x)-\frac{1}{2} \int d^{d_{\mathrm{in}}} x^{\prime} J(x^{\prime}) f(x^{\prime})}}{Z_{\mathrm{GP}}} \\ & \displaystyle \hspace{20pt} = \exp \left(\frac{1}{2} \int d^{d_{\mathrm{in}}} x d^{d_{\mathrm{in}}} x^{\prime} J(x) K(x, x^{\prime}) J(x^{\prime})\right) \end{eqnarray*}$

となることがわかる．この分配関数を使えば，ガウス過程の $n$ 点グリーン関数は以下のようにして簡単に求めることができる．

(17) $\begin{eqnarray*} & \displaystyle G_{\mathrm{GP}}^{(n)}\left(x_{1}, \ldots, x_{n}\right) = \left.\left[\left(-\frac{\delta}{\delta J\left(x_{1}\right)}\right) \ldots\left(-\frac{\delta}{\delta J\left(x_{n}\right)}\right) Z_{\mathrm{GP}}[J]\right]\right|_{J=0} \\ & \displaystyle \hspace{3pt} = \frac{\int \mathcal{D} f f\left(x_{1}\right) \ldots f\left(x_{n}\right) e^{-S_{\mathrm{GP}}}}{Z_{\mathrm{GP}}} \end{eqnarray*}$

このとき， $(16)-(17)$ 式から， $n$ が奇数のときは $n$ 点グリーン関数の値が0になることがわかる．

ここで有限幅のニューラルネットの（未知の）作用積分を $S$ ， $n$ 点グリーン関数を $G^{(n)}\left(x_{1}, \ldots x_{n}\right)$ と置き，（既知の）無限幅のニューラルネット（漸近ニューラルネット）の場合のそれとのズレをそれぞれ $\Delta S$ ， $\Delta G^{(n)}$ と表すことにする．

(18) $\begin{eqnarray*} & \displaystyle \Delta S = S - S_{\mathrm{GP}} \\ & \displaystyle \Delta G^{(n)}\left(x_{1}, \ldots, x_{n}\right) = G^{(n)}\left(x_{1}, \ldots x_{n}\right) - G_{\mathrm{GP}}^{(n)}\left(x_{1}, \ldots, x_{n}\right) \end{eqnarray*}$

ここで $n$ 点グリーン関数 $G^{(n)}\left(x_{1}, \ldots x_{n}\right)$ は

(19) $\begin{eqnarray*} & \displaystyle G^{(n)}\left(x_{1}, x_{2}, \cdots, x_{n}\right) := \left\langle 0\left|\mathrm{T}\left[\phi\left(x_{1}\right) \phi\left(x_{2}\right) \cdots \phi\left(x_{n}\right)\right]\right| 0\right\rangle \end{eqnarray*}$

(20) $\begin{eqnarray*} & \displaystyle \mathrm{T}\left[\phi\left(x_{1}\right) \phi\left(x_{2}\right)\right] = \theta\left(x_{1}^{0}-x_{2}^{0}\right) \phi\left(x_{1}\right) \phi\left(x_{2}\right) + \theta\left(x_{2}^{0}-x_{1}^{0}\right)\phi\left(x_{2}\right) \phi\left(x_{1}\right) \\ & \displaystyle \hspace{-28pt} = \left\{\begin{array}{cl} \phi\left(x_{1}\right) \phi\left(x_{2}\right) & \left(x_{1}^{0}>x_{2}^{0}\right) \\ \phi\left(x_{2}\right) \phi\left(x_{1}\right) & \left(x_{2}^{0}>x_{1}^{0}\right) \end{array}\right. \end{eqnarray*}$

また，ガウス過程の $n$ 点グリーン関数は，ウィックの定理から以下のように計算できるので

(21) $\begin{eqnarray*} & \displaystyle \operatorname{Wick}\left(x_{1}, \ldots, x_{n}\right) = \left\{P \in \operatorname{Partitions}\left(x_{1}, \ldots, x_{n}\right)\mid \ | p |=2 \forall p \in P\right\} \end{eqnarray*}$

(22) $\begin{eqnarray*} & \displaystyle G_{\mathrm{GP}}^{(n)}\left(x_{1}, \ldots, x_{n}\right) = \sum_{p \in \operatorname{Wick}\left(x_{1}, \ldots, x_{n}\right)} K\left(a_{1}, b_{1}\right) \ldots K\left(a_{n / 2}, b_{n / 2}\right) \end{eqnarray*}$

$\Delta G^{(n)}$ は次のように形式的に書き下すことができる．

(23) $\begin{eqnarray*} & \displaystyle \hspace{0pt} \Delta G^{(2)} = G^{(2)}\left(x_{1}, x_{2}\right) - G_{\mathrm{GP}}^{(2)}\left(x_{1}, x_{2}\right) \\ & \displaystyle \hspace{38pt} = \mathbb{E}\left(f\left(x_{1}\right) f\left(x_{2}\right)\right) - K\left(x_{1}, x_{2}\right) \\ & \displaystyle \hspace{77pt} = \frac{1}{n_{\text{nets}}} \sum_{\alpha}^{n_{\text{nets}}} f_{\alpha}\left(x_{1}\right) f_{\alpha}\left(x_{2}\right) - K\left(x_{1}, x_{2}\right) \end{eqnarray*}$

(24) $\begin{eqnarray*} & \displaystyle \hspace{0pt} \Delta G^{(4)} = G^{(4)}\left(x_{1}, x_{2}, x_{3}, x_{4}\right) - G_{\mathrm{GP}}^{(4)}\left(x_{1}, x_{2}, x_{3}, x_{4}\right) \\ & \displaystyle \hspace{130pt} = \mathbb{E}\left(f\left(x_{1}\right) f\left(x_{2}\right) f\left(x_{3}\right) f\left(x_{4}\right)\right) - \sum_{p \in \mathrm{Wick}\left(x_{1}, x_{2}, x_{3}, x_{4}\right)} K\left(p_{1}\right) K\left(p_{2}\right) \\ & \displaystyle \hspace{360pt} = \frac{1}{n_{\text {nets }}} \sum_{\alpha}^{n_{\text {nets }}} f_{\alpha}\left(x_{1}\right) f_{\alpha}\left(x_{2}\right) f_{\alpha}\left(x_{3}\right) f_{\alpha}\left(x_{4}\right) - \left[K\left(x_{1}, x_{2}\right) K\left(x_{3}, x_{4}\right) + K\left(x_{1}, x_{3}\right) K\left(x_{2}, x_{4}\right)+K\left(x_{1}, x_{4}\right) K\left(x_{2}, x_{3}\right)\right] \end{eqnarray*}$

これでようやく準備が整った．次節ではこの $\Delta G^{(n)}$ を有限幅のニューラルネットを使って具体的に計算し，理論から予測される性質と比較してみよう．

１−３. 有限幅のニューラルネットを使った実験結果

自由場（ガウス過程=漸近ニューラルネット）の $n$ 点グリーン関数は，相互作用をもたない（＝交点を含まない）直線からなるシンプルなファインマン図であらわせる．

自由場の2点グリーン関数なら

自由場の4点グリーン関数なら

といった具合になる．このファインマン図を使うと，１−２で紹介した $\Delta G^{(n)}$ は次のように書きあらわせる．

ここで $n$ 点グリーン関数の標準化された偏差

(25) $\begin{eqnarray*} & \displaystyle m_{n}\left(x_{1}, \ldots, x_{n}\right) := \frac{\Delta G^{(n)}\left(x_{1}, \ldots, x_{n}\right)}{G_{\mathrm{GP}}^{(n)}\left(x_{1}, \ldots, x_{n}\right)} \end{eqnarray*}$

とニューラルネットの中間層の幅 $N$ の関係をみてみよう．実験のセットアップは以下の通り．

活性化関数を（指数関数＋正規化）に設定し

(26) $\begin{eqnarray*} & \displaystyle g\left(W_{0} x+b_{0}\right) = \frac{\exp \left(W_{0} x+b_{0}\right)}{\sqrt{\exp \left[2\left(\sigma_{b}^{2}+\frac{\sigma_{W}^{2}}{d_{\text {in }}} x^{2}\right)\right]}} \end{eqnarray*}$

カーネル関数は（ガウスカーネル）に設定する．

(27) $\begin{eqnarray*} & \displaystyle K(x, y) := \sigma_{b}^{2}+K_{W}(x, y), \quad K_{W}(x, y) = \sigma_{W}^{2} \mathrm{e}^{-\frac{\sigma_{W}^{2}}{2 d_{\text {in }}}|x-y|^{2}} \end{eqnarray*}$

ニューラルネット・アンサンブルの数，チャンクの数を

(28) $\begin{eqnarray*} & \displaystyle n_{\text {net }} = 10^{5}, \quad n_{\text {bags }} = 10^{2} \end{eqnarray*}$

入力データの次元, ウェイトの分散，バイアスの分散，中間層の幅を

(29) $\begin{eqnarray*} & \displaystyle d_{\text {in }} = 1,\ \sigma_{W} = 1,\ \sigma_{b} = 1,\ N \in\{2,3,4,5,10,20,50,100,500,1000\} \end{eqnarray*}$

入力データを

(30) $\begin{eqnarray*} & \displaystyle x_{1}, \ldots, x_{6} \in\{-0.01,-0.006,-0.002,0.002,0.006,0.01\} \end{eqnarray*}$

として，理論から予測される $n$ 点グリーン関数，偏差の性質

(31) $\begin{eqnarray*} & \displaystyle G^{(2)}(x_{1}, x_{2}) \approx K(x_{1}, x_{2}) \quad \Longrightarrow \quad m_{2}(x_{1}, x_{2}) \approx 0, \quad \forall N \end{eqnarray*}$

(32) $\begin{eqnarray*} & \displaystyle m_{4}\left(x_{1}, \ldots, x_{4}\right) = \mathcal{O}(1 / N), \quad m_{6}\left(x_{1}, \ldots, x_{6}\right) = \mathcal{O}(1 / N) \end{eqnarray*}$

が確かめられることを確認しよう．

ここでバックグラウンドは偏差 $m_{n}$ の標準偏差の平均値をあらわしている．中央の $4$ 点グリーン関数，右端の $6$ 点グリーン関数では中間層の幅 $N$ が大きくなるにつれて，偏差 $m_{n}$ ，バックグラウンドともに $N^{-1}$ のオーダーで小さくなっていくことがみてとれる．こうして $N$ が大きくなるにつれて，①有限幅のニューラルネット（非ガウス過程）と漸近ニューラルネット（ガウス過程）の乖離が徐々に狭まっていくこと，②出力の相関関数（ $n$ 点グリーン関数）の振る舞いが（理論の予測通り）次数 $n$ によって異なることが実験的にも確かめられた．

つまり，漸近ニューラルネット（ガウス過程）⇔ 自由場，有限幅のニューラルネット（非ガウス過程）⇔ 相互作用場の対応関係が成り立つという仮説について実験的傍証が得られた！

1
J. Halverson, A. Maiti and K. Stoner, “Neural networks and quantum field theory”, Machine Learning: Science and Technology, Volume 2, Number 3 (2021)
2
A. Maiti, K. Stoner and J. Halverson, “Symmetry-via-Duality: Invariant Neural Network Densities from Parameter-Space Correlators”, arXiv:2106.00694 [hep-th]. (2021)
3
H. Erbin, V. Lahoche and D. O. Samary, “Nonperturbative renormalization for the neural network-QFT correspondence”, arXiv: 2108.01403 [hep-th]. (2021)

Yusuke Hayashi's Homepage

ニューラルネットの場の量子論的解釈

１. ニューラルネットの場の量子論的解釈

１−１. 漸近ニューラルネットとガウス過程，自由場の関係

１−２. 有限幅のニューラルネットと非ガウス過程，摂動論（場の量子論）の関係

１−３. 有限幅のニューラルネットを使った実験結果

いいね:

コメントを残すコメントをキャンセル

１. ニューラルネットの場の量子論的解釈

１−１. 漸近ニューラルネットとガウス過程，自由場の関係

１−２. 有限幅のニューラルネットと非ガウス過程，摂動論（場の量子論）の関係

１−３. 有限幅のニューラルネットを使った実験結果

共有:

いいね:

コメントを残すコメントをキャンセル

Yusuke Hayashi's Homepageをもっと見る