Denoising Diffusion Probabilistic Models
はじめに
2020年の以下の論文の式変形を記載する。 arxiv.org
拡散モデル
この論文で考える「拡散モデル」はマルコフ連鎖モデル(未来の状態は現在の状態だけで決まるモデル)である(下図参照)。
1番左の状態はガウスノイズ画像、1番右の状態は物体が明確に写っている画像である。いま、の状態にわずかなガウスノイズを載せた画像を作り、それを状態とする。これを回繰り返すとになるとする。からに至る過程をForward過程(拡散過程)と呼ぶ。一方、からに至る逆向きの過程も考えることができる。この過程は、ガウスノイズ画像が徐々にきれいな画像に変化していく過程である。この過程をReverse過程(生成過程)と呼ぶ。
拡散過程の各ステップでは画像にガウスノイズを載せるので、を次式で与えることができる。
ここで、はベクトル、は単位行列、である。本論文では(ハイパーパラメータ)として程度の値を与えている。が小さな値のとき生成過程もガウス分布関数で近似することができる。
ここで、はとから計算される平均ベクトル、(ハイパーパラメータ)は分散である。拡散モデルでは、をニューラルネットワークを用いて学習する。
変分推論
学習を行うには最小化する関数が必要である。拡散モデルでは次式を最小化する。
ここで、はを表し、はを表す。マルコフ連鎖モデルなので
と書くことができる。これを\eqref{eq1}に代入すると
を得る。ここで、を用いて上式を書き換える。
3行目でイェンセンの不等式を用いた。左辺を最小化するには右辺()を最小化すれば良いので、これ以降の議論ではの最小化を考える。を変形すると
は以下のように書くことができる。
これを式\eqref{eq2}に代入すると
を得る。
上式の両辺にをかけてで積分すると
となる。いま、期待値
を定義すると、上式の右辺は
と書くことができる。を少し変形して
を得る。ここで
が成り立つので(後半の等式はベイズの定理)これを式\eqref{eq3}の右辺第3項に代入すると
となる。式\eqref{eq4}の第2項は
と変形される。従って
を得る。右辺第2項と第4項をまとめて
右辺第1項と第2項を変形して
を得る。式\eqref{eq5}の右辺第2項を変形すると
式\eqref{eq5}の右辺第3項を変形すると
を得る。いま
を定義すると式\eqref{eq5}は次式となる。
この式が論文中の式(5)である。
の計算
式\eqref{eq0}でとおく。
いま
を考え、次式を計算する。
3行目はに依存する項だけを残した。指数関数の肩の]に注目して
ここで
と置いた。はスカラー、はベクトルである。さらに計算すると
を得る。上式を式\eqref{eq6}に代入し、について積分すると
となる。2行目への変形ではに依存する項だけを残した。以上より
が成り立つことがわかる。ここで
とした。同じ計算を繰り返していけば
を得る。これが論文の式(4)である。また、を大きくしていくとは小さくなるのでは標準正規分布に近づいていくことが分かる。
の計算
ベイズの定理より
ここに\eqref{eq0}と\eqref{eq9}を代入する。
2行目ではに依存する項だけを残した。指数関数の肩の]に注目して
ここで
と置いた。はスカラー、はベクトルである。さらに変形すると
ここに上のとを代入すると
となる。ここで
と置いた。上式を指数関数の肩に戻すと
となる。従って
を得る。これらが論文中の式(6)と式(7)に相当する。
最小化すべき関数の計算
最小化すべき関数\eqref{eq7}は以下であった。
右辺第2項は学習から決めるパラメータに依存しないので無視できる。
最初にの第2項を考える。期待値の中のKullback Leibler divergenceを取り出して
ここに
を代入すると
となる。はに依存しない項である。の場合を考えての中を計算すると
上式を\eqref{eq10}に戻してについて積分すると、上式の第1項と第2項はガウス関数と掛け算されて奇関数となるので積分の寄与はゼロになる。以上より
を得る。ただし定数項は落とした。の第2項に戻すと
を得る。これが論文中の式(8)である。先に求めた式
に再パラメータ化トリックを適用して
これをについて解くと
となる。ここで、上で求めた式\eqref{eq11}を考える。
右辺のに式\eqref{eq12}を代入すると
となる。従っては
となる。これが論文中の式(10)である。上式が最小になるのは
のときである。は学習で決めるパラメータであるから上式右辺には学習で決める項がなければならない。そこで、新たな量を導入する。
はとから計算される関数である。上式を式\eqref{eq13}に代入すると
を得る。ここで、は式\eqref{eq14}で与えられていることに注意する(次式)。
式\eqref{eq15}は、標準正規分布で生成したノイズをとを用いて予測する目的関数になっている。式\eqref{eq15}を実際に計算する際は、とでサンプリングして期待値を取る。
さらに、ノルムの係数も落とし、ステップについてもサンプリングを取る。
これが論文中の式(14)である。最後に式\eqref{eq16}の第1項を考える。
は、生成過程の一番最後のステップである。を各画素から構成される次元のベクトルと考える。
最終行では積分範囲を平均値の近傍に制限した(下図参照)。これが論文中の式(13)である(恐らく)。
まとめ
拡散モデルの2020年の論文Denoising Diffusion Probabilistic Modelsの式変形を追ってみた。恐らく誤りや勘違いがあると思うので指摘いただければ幸いです。