[TOC]

変分ベイズVariational_Bayesian

1. 参考資料

2. 内容

2.1. 変分ベイズ

  • 変分ベイズ(Variational_Bayesian)とは?

    観測されている変数から観測されていない変数の推論を最適化を用いて行う手法

  • Problem setup

    • 観測データは(パラメータを持っている)潜在変数から確率的に生成されているとする(,は確率変数).つまり,が定まっている.

    • の確率分布,を確率密度関数とする.(についても同様に定義する)

    • この時,Bayes's Theoremを用いるとを下記の式から

  • 変分下限(Variational_Lower_bound)の導出 where

    • (Shannon entropyと呼ぶ)

    • is approximation of the true posterior distribution of

    特記事項

  • VBのMain Idea

    approximation とtrue distribution 近さはKullback-Leibler(KL) divergenceで測ることができる. よって,

となる.つまり,とELBOの差は真の分布と近似のカルバック情報量となる.言い換える真の分布と近似が一致する時に限り,とELBOは一致する.

2.2. 潜在空間と観測空間の距離の関係

自然な仮定のもとで潜在空間での距離が近ければ観測空間の距離が近くなる事を示す。

つまり、示したい事は 以下では上記を示す。

を任意に固定する。ベイズの定理より である。この時、が成立していると仮定する。VAEではは正規分布を仮定することが多いので、この仮定は自然だと思われる。

また、学習が上手くいくと生成モデルでははエンコーダーで近似出来ている(損失関数がKL情報量の最小化であるため)。この時と仮定しても自然であると思われる。(VAEだとにはよく正規分布が使われるのでこの仮定が成立する。ちなみにエンコーダーが正規分布というのは、つまりエンコーダーの出力が,であって、ということである)

また、は定数であるので、である。

2.3. VAE

2.3.1. 変分下限Lの式変形

を用いると となる.

これまでの議論においての近似と置き換えても同じ議論ができるので,今後は置き換えたものを用いる.この時,上式は となる.

また,変分ベイズ>式(1)においてと置き換えることで, となる.よって,

2.3.2. VAEの仮定

  1. 潜在変数(prior over the latent variable)が多変量標準正規分布に従っている.

  2. が多変量正規分布(multivariate Gaussian)もしくはBernoulli(in the case of binary data)に従っている.

    ※実際の分布は何でも良い気がする.大事なことは分布のパラメーターがデコーダーによって与えられているということ.

  3. 真の事後分布がdiagonal covarianceを持った多変量正規分布に従っていると仮定する.


    ※ちなみに,の平均がの線形結合となっている場合はこの公式より3.の仮定がなくても正規分布に従うことが分かる.


    この時,その近似であるもdiagonal covarianceを持ったガウス分布に従っていると考えるのが妥当であるから, と表せる.ここで,の次元をとすると,は単位行列 ,成分がの時そうでないときとなっている行列を表すことにする.また,分布のパラメータエンコーダーによって与えられているものとする.

2.3.3. VAEの目標

  • データが観測された事実が尤もらしくなるように,生成分布であるデコーダーの(パラメータを)学習

  • 真の事後分布を近似するエンコーダーの(パラメータを)学習

を同時に行う手法.

その為に変分下限Lの式変形> 式(2)の式に現れる変分下限の最大化を目指す.上の(2)式は計算しずらいので,式変形した式(3)であるを最大化する(VAEの仮定より2つの項は計算可能である.(計算方法については後述)


補足(尤度最大化の具体例)

コインを1,000回投げて800回表が出た時にコインを1回投げた時に表が出る確率を推定する場合を考える.表が出る確率(パラメータ)が1/2とすると上記の観測結果が得られる確率(尤度)は非常に小さくなるので表が出る確率は1/2でないことが推測される.一方,表が出る確率が0.8だとすると上記の観測結果が得られる確率は最大になり,尤もらしいパラメータであると推測される.


2.3.4. カルバック情報量の計算

を考える.VAEの仮定よりであり,はエンコーダーの出力となっている.仮定よりは多変量標準正規分布であるのでカルバック情報量この公式より,の次元をとすると, と表せる.

2.3.5. 復元誤差reconstruction_errorの計算

を大きくする為には,入力データを(に従って)エンコードしたデータを生成元とした時にが生成される確率が大きくなければならないので,は復元誤差(reconstraction error)と呼ばれる.

また,の近似としてモンテカルロ法,すなわち が用いられることがある.ただし, and であり,はエンコーダーによって取得される.(実際のコードではとなっていることが多い).この時,はVAEの仮定よりベルヌーイ分布か正規分布でありパラメータはデコーダーによって得られるので右辺は計算可能.

2.3.6. 損失関数

以上の議論より,損失関数(最小化)は以下のようになる.

2.4. 非正則化異常度

2.4.1. 参考文献

2.4.2. 仮定

  • VAEでははベルヌーイ分布か正規分布と仮定していたが,今回はがdiagonal covarianceを持った正規分布(multivariate Gaussian)に従っていると仮定する.つまり,と表されるとする.また,分布のパラメータはデコーダーによって与えられるものとする.

残りはVAEの仮定と同じ.

2.4.3. 損失関数

今回はVAEの損失関数 に現れるで近似する.ただし,は正規分布であるの平均を表す(エンコーダーによって得られる).

またはエンコーダーによって得られるため,に依存していることと,は正規分布であることを考慮するとと表すことができ,仮定より,はデコーダーにを代入した時の出力である.

以上をまとめると,本手法の損失関数は以下のように表すことが出来る.

(は入力次元数,は潜在空間の次元数) ただし, である.ただし

学習時はの最小化を目指す

2.4.4. 従来の異常度について

変分下限Lの式変形 式(2)より であり,学習が上手くいった場合はが十分小さくなると考えると,右辺はとなるので異常度とすることが出来る.

2.4.5. 提案手法の異常度について

正常と異常を区別するための非正則化異常度は以下で定義される. 損失関数から正規分布の正規化定数の対数とVAEの正則化項を取り除いたので非正則化異常度と呼ばれる.


構造が多様な製品に対しても有効な異常度を定義したことが成果だと主張している.論文の実験データとなっているネジ穴データセットにおいて,従来手法の異常度を用いた場合, 画像間で差分が大きいネジ穴の溝の部分は正常でも異常と判別されるが異常度を用いた場合には正常のものは正常と判別できている.


2.4.6. 学習

概要
  • 正常品と異常品の両方を入力として(ラベルがついてなくても良い)を損失関数としてVAEの学習を行う.
  • テストデータ以外でを求めて閾値を決定する

※論文では640x480の画像を96x96に切り取って学習及びテストを行っている.

詳細
  • 初めの畳み込み層のチャネル数
  • 潜在空間の次元数
Last modified by akirat1993 2019-11-24 14:23:09
Created by akirat1993 2019-06-28 20:44:20

results matching ""

    No results matching ""