0.1. モデル

0.1.1. 事後分布の表現

下記のような生成モデルが与えられたとする。

つまり、生成分布として以下が存在

$y$ の確率密度関数 $p (y)$

$y$ が与えられた下での $s$ の確率密度関数 $p (s | y)$

$z$ が与えられた下での $x$ の確率密度関数 $p (x | z)$

また、 $U$ は直交行列で $z = U s$ を満たすとする。

この時、 $p (z | x, y)$ は上記の確率密度関数を用いて表現可能。

仮定より$z = Us$であるので $p (z | y) = p (s | y) (s = U^{T} z)$ である。また、 $p (z | x, y) = \frac{p (x, z, y)}{p (x, y)}$ であり、右辺の分子については $p (x, z, y) = p (x | z, y) p (z | y) p (y) = p (x | z) p (z | y) p (y)$ 右辺の分母については $p (x, y) = p (x | y) p (y)$ 第1項については $p (x | y) = \int_{z} p (x, z | y) d z = \int_{z} p (x | z, y) p (z | y) d z = \int_{z} p (x | z) p (z | y) d z$ であるので、まとめると $p (z | x, y) = \frac{p (x, z, y)}{p (x, y)} = \frac{p (x | z) p (z | y) p (y)}{p (y) (\int_{z} p (x | z) p (z | y) d z)}$ となり、与えられた確率密度関数を用いて表現できる。

0.1.2. 対数尤度関数の最大化

$p_{θ} (z | x, y)$ を近似するパラメータ $ϕ$ によって特徴づけられるエンコーダ $q_{ϕ} (z | x, y)$ を用意してJensen's inequalityを用いると以下の式変形から変分下限を求めることが出来る。 $\begin{matrix} log p_{θ} (x | y) & = log \int p_{θ} (x, z | y) d z = log \int q_{ϕ} (z | x, y) \frac{p_{θ} (x, z | y)}{q_{ϕ} (z | x, y)} d z \geq \int q_{ϕ} (z | x, y) log \frac{p_{θ} (x, z | y)}{q_{ϕ} (z | x, y)} d z = \int q_{ϕ} (z | x, y) log \frac{p_{θ} (x | z, y) p_{θ} (z | y)}{q_{ϕ} (z | x, y)} d z = - \int q_{ϕ} (z | x, y) log \frac{q_{ϕ} (z | x, y)}{p_{θ} (z | y)} d z + \int q_{ϕ} (z | x, y) p_{θ} (x | z, y) d z = - K L [q_{ϕ} (z | x, y) | | p_{θ} (z | y)] + \int q_{ϕ} (z | x, y) p_{θ} (x | z) d z \end{matrix}$

0.1.3. 復元誤差の最小化

対数尤度関数の変分下限は下記の式であった。 $log p_{θ} (x | y) \geq - K L [q_{ϕ} (z | x, y) | | p_{θ} (z | y)] + \int q_{ϕ} (z | x, y) p_{θ} (x | z) d z$ 続いて、右辺の2項目 $\int q_{ϕ} (z | x, y) p_{θ} (x | z) d z$ の最大化について考える。

VAEと同じくデコーダー $q_{ψ} (x | z)$ は事前分布 $p_{θ} (x | z)$ を上手く近似できていると考える。

デコーダーが分布を出力する場合

この時モンテカルロ法を用いると右辺は以下のように近似できる。 $\int q_{ϕ} (z | x, y) p_{θ} (x | z) d z = \frac{1}{R} R \sum r = 1 q_{ψ} (x | z_{r})$ ただし、 $z_{1}, \dots, z_{R}$ は独立に $q_{ϕ} (z | x, y)$ に従っているとする。

ゆえに、損失関数は以下のようにする。 $\begin{matrix} L_{R} & = - L \sum i = 1 (\frac{1}{R} R \sum r = 1 q_{ψ} (x^{(i)} | z_{r})) (z_{r} \sim q_{ϕ} (z_{r} | x^{(i)}, y^{(i)})) = - \frac{1}{L R} L \sum i = 1 R \sum r = 1 q_{ψ} (x^{(i)} | z_{r}) (z_{r} \sim q_{ϕ} (z_{r} | x^{(i)}, y^{(i)})) \end{matrix}$

デコーダーが一点分布の場合

損失関数を復元した際の誤差で定める。 $L_{R} = \frac{1}{L} L \sum i = 1 d (x^{(i)}, {^x}^{(i)})$ ただし、 $z^{(i)} \sim q_{ϕ} (z | x^{(i)}, y^{(i)})$ , ${^x}^{(i)} \sim q_{ψ} (x | z^{(i)})$ である。また、 $d (\cdot, \cdot)$ は元データと復元データの距離を測る関数で一般には $L_{1}$ ノルムや $L_{2}$ ノルムの2乗などを用いる。

0.2. Appendix

0.2.1. Lemma1

Let $M \in R^{m \times n}$ satisfies $M^{T} M = I_{n}$ and $S \in S^{n}$ where $I_{n}$ is the $n$ -dimensional identity matrix and $S^{n}$ is the set of $n$ -by- $n$ symmetric matrices. Then

$tr (M S M^{T}) = tr (S)$

where $tr (A)$ means the trace of the matrix $A$ .

(proof)

$S$ は対称行列なので直交行列 $U \in R^{n \times n}$ が存在して、 $S = U diag (λ_{1}, \dots, λ_{n}) U^{T}$ と表せる。ここで $diag (λ_{1}, \dots, λ_{n})$ は対角成分に $S$ の固有値をとる対角行列である。

表記の簡略化の為に $D \equiv diag (λ_{1}, \dots, λ_{n})$ と定義すると、 $M S M^{T} = M U D U^{T} M^{T}$ と表される。 $V = M U = (v_{1}, \dots, v_{n})$ とすると、 $V^{T} V = U^{T} M^{T} M U = I_{n}$ であるので、任意の $1 \leq i \leq n$ に対して、 $∥ v_{i} | |_{2}^{2} = v_{i}^{T} v_{i} = 1$ であることに留意すると、 $\begin{matrix} tr (M S M^{T}) & = tr (M U D U^{T} M^{T}) = tr (V D V^{T}) = m \sum j = 1 (n \sum k = 1 (n \sum i = 1 V_{j i} D_{i k}) V_{j k}) = m \sum j = 1 n \sum k = 1 λ_{k} (V_{j k})^{2} = n \sum k = 1 λ_{k} (m \sum j = 1 (V_{j k})^{2}) = n \sum k = 1 λ_{k} ∥ v_{k} | |_{2}^{2} = n \sum k = 1 λ_{k} = tr (S) \end{matrix}$

0.2.2. Lemma2

Let $M \in R^{m \times n}$ satisfies $M^{T} M = I_{n}$ and $S \in S_{+ +}^{n}$ where $I_{n}$ is the $n$ -dimensional identity matrix and $S_{+ +}^{n}$ is the set of $n$ -by- $n$ positive definite matrices. Then

$tr ((M S M^{T})^{1 / 2}) = tr (S^{1 / 2})$

(proof)

$M^{T} M = I_{n}$ であるので $(M S M^{T})^{1 / 2} = M S^{1 / 2} M^{T}$ である。ゆえに, $S^{1 / 2} \in S_{+ +}^{n}$ に注意すると、Lemma1より $tr ((M S M^{T})^{1 / 2}) = tr (M S^{1 / 2} M^{T}) = tr (S^{1 / 2})$

0.2.3. Lemma3

$S_{1}, S_{2} \in S_{+ +}^{n} \Rightarrow S_{1}^{1 / 2} S_{2} S_{1}^{1 / 2} \in S_{+ +}^{n}$

where $S_{+ +}^{n}$ is the set of $n$ -by- $n$ positive definite matrices.

(proof)

$S_{1}^{1 / 2} \in S_{+ +}^{n}$ であるので、任意の $x \in R^{n} ∖ {0}$ に対して $S_{1}^{1 / 2} x \neq 0$ であることに注意すると、 $x^{T} S_{1}^{1 / 2} S_{2} S_{1}^{1 / 2} x = (S_{1}^{1 / 2} x)^{T} S_{2} S_{1}^{1 / 2} x > 0$

0.2.4. Lemma4

Let $A \in R^{m \times n}$ , $b \in R^{m}$ , and $X \sim N (μ, Σ)$ where $N (μ, Σ)$ represents multivariate normal distribution with its mean vector $μ$ and covariance matrix $Σ$ .

Then $A X + b \sim N (A μ + b, A Σ A^{T})$

(proof) 定理3

0.2.5. Lemma5

Let $P \sim N (μ_{1}, Σ_{1})$ and $Q \sim N (μ_{2}, Σ_{2})$ where $N (μ_{1}, Σ_{1})$ represents multivariate normal distribution with its mean vector $μ_{1}$ and covariance matrix $Σ_{1}$ . Then

$W_{2} (P, Q)^{2} = ∥ μ_{1} - μ_{2} ∥_{2}^{2} + tr (Σ_{1}) + tr (Σ_{2}) - 2 tr ((Σ_{1}^{1 / 2} Σ_{2} Σ_{1}^{1 / 2})^{1 / 2})$

(proof) see this website

ちなみに、 $Σ_{1}^{1 / 2} Σ_{2} Σ_{1}^{1 / 2}$ が正定値行列であることはLemma3で示している。

0.2.6. Lemma6

Let $X_{1}, \dots, X_{n}$ are independent random vectors having density function and $h_{i}$ is the function whose domain is $X_{i}$ .

Then $h_{1} (X_{1}), \dots, h_{n} (X_{n})$ are also independent random vectors.

(proof)

$Y_{i} \equiv f (X_{i})$ と定義する。 $\begin{matrix} P (Y_{1} = y_{1}, \dots, Y_{n} = y_{n}) & = P (h_{1} (X_{1}) = y_{1}, \dots, h_{n} (X_{n}) = y_{n}) = P (X_{1} \in h_{1}^{- 1} (y_{1}), \dots, X_{n} \in h_{n}^{- 1} (y_{n})) = P (X_{1} \in h_{1}^{- 1} (y_{1})) \cdot P (X_{2} \in h_{2}^{- 1} (y_{2})) \dots \cdot P (X_{n} \in h_{n}^{- 1} (y_{n})) = P (Y_{1} = y_{1}) \dots P (Y_{n} = y_{n}) \end{matrix}$ 参考資料

0.2.7. Lemma7

Let $X_{1}, \dots, X_{n}$ are independent continuous random vectors having density function $p_{1} (x_{1}), \dots, p_{n} (x_{n})$ , and $Y_{1}, \dots, Y_{n}$ are also independent continuous random vectors having density function $q_{1} (y_{1}), \dots, q_{n} (y_{n})$ .

Then, the Kullback-Leibler divergence of $Y = (Y_{1}, \dots, Y_{n})$ from $X = (X_{1}, \dots, X_{n})$ is

$K L [X | | Y] = \sum_{i = 1}^{n} K L [X_{i} | Y_{i}]$

(proof)

Since $X_{1}, \dots, X_{n}$ are independent, $p (x) = \prod_{i = 1}^{n} p_{i} (x_{i})$ . It is also true for $Y$ , hence we have $\begin{matrix} K L [X | | Y] & = \int_{x} p (x) log (\frac{p (x)}{q (x)}) = \int_{x_{1}} \dots \int_{x_{n}} ((n \prod i = 1 p_{i} (x_{i})) n \sum i = 1 log (\frac{p (x_{i})}{q (x_{i})})) = n \sum i = 1 (\int_{x_{i}} p_{i} (x_{i}) log (\frac{p (x_{i})}{q (x_{i})})) = n \sum i = 1 K L [X_{i} | Y_{i}] \end{matrix}$

0.2.8. Theorem1

Let $P \sim N (μ_{1}, Σ_{1})$ , $Q \sim N (μ_{2}, Σ_{2})$ , $M \in R^{m \times n}$ satisfies $M^{T} M = I_{n}$ , and $b \in R^{m}$ where $N (μ_{1}, Σ_{1})$ represents multivariate normal distribution with its mean vector $μ_{1}$ and covariance matrix $Σ_{1}$ .

We define $^P \equiv M P + b$ and $^Q \equiv M Q + b$ . Then,

$W_{2} (^P,^Q) = W_{2} (P, Q)$

where $W_{2} (P, Q)$ is the $W_{2}$ Wasserstein distance.

(proof)

$W_{2} (^P,^Q), W_{2} (P, Q) \geq 0$ であるので、 $W_{2}^{2} (^P,^Q) = W_{2}^{2} (P, Q)$ を示せば十分。Lemma4より $^P \sim N (M μ_{1} + b, M Σ_{1} M^{T}),^Q \sim N (M μ_{2} + b, M Σ_{2} M^{T})$ である。 $M^{T} M = I_{n}$ であることから、 $(M Σ_{1} M^{T})^{1 / 2} = M Σ_{1}^{1 / 2} M^{T}$ であることに注意すると

、 $W_{2} (^P,^Q)^{2}$ はLemma5より $\begin{matrix} W_{2} (^P,^Q)^{2} & = ∥ M (μ_{1} - μ_{2}) ∥_{2}^{2} + tr (M Σ_{1} M^{T}) + tr (M Σ_{2} M^{T}) - 2 tr ((M Σ_{1}^{1 / 2} Σ_{2} Σ_{1}^{1 / 2} M^{T})^{1 / 2}) \end{matrix}$ ここで、1項目には $M^{T} M = I_{n}$ であることを用いて、2,3項目にはLemma1を用い、 $Σ_{1}^{1 / 2} Σ_{2} Σ_{1}^{1 / 2}$ はLemma3より正定値行列であることに注意してLemma2を用いると、

$W_{2} (^P,^Q)^{2} = ∥ μ_{1} - μ_{2} ∥_{2}^{2} + tr (Σ_{1}) + tr (Σ_{2}) - 2 tr ((Σ_{1}^{1 / 2} Σ_{2} Σ_{1}^{1 / 2})^{1 / 2}) = W_{2} (P, Q)^{2}$

Last modified by akirat1993 2020-04-11 18:47:14

Created by akirat1993 2020-04-11 18:47:14

MMVAE

0.1. モデル

0.1.1. 事後分布の表現

0.1.2. 対数尤度関数の最大化

0.1.3. 復元誤差の最小化

デコーダーが分布を出力する場合

デコーダーが一点分布の場合

0.2. Appendix

0.2.1. Lemma1

0.2.2. Lemma2

0.2.3. Lemma3

0.2.4. Lemma4

0.2.5. Lemma5

0.2.6. Lemma6

0.2.7. Lemma7

0.2.8. Theorem1

results matching ""

No results matching ""