Generative Learning Algorithm, and GDA
๋ณธ ๊ธ์ 2018-2ํ๊ธฐ Stanford Univ.์ Andrew Ng ๊ต์๋์ Machine Learning(CS229) ์์ ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
GDA(Gaussian Discriminant Analysis)๋ผ๋ ๊ธฐ๋ฒ์ด ๋ฑ์ฅํ๋ค. ์ด๋ฆ์ด ํ๋๋ ํ๊ฒ ์๊ฒผ์ง๋ง, ์ด๋ก ์ ๋ณ๊ฑฐ ์๋ค. ์์ฌํ๊ณ ๋ค์ด๋ธ๐คฟํ์!
โ lecture 5
Generative Learning Algorithm
์ฐ๋ฆฌ๊ฐ ์ดํด๋ณธ Logistic Regression ๋ชจ๋ธ๋ค์ Discriminative Learning์ ์ํ๋ ๋ชจ๋ธ์ด์๋ค.
Discriminative ๋ชจ๋ธ์์๋ $p(y \vert x)$๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ๋ฐ๋ฉด์ Generative ๋ชจ๋ธ์ $p(x \vert y)$์ $p(y)$๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.1
Generative Learning์ Bayes Rule์ ๋ฐํ์ผ๋ก ํ๋ ์ด๋ก ์ด๋ค.
์ฐ๋ฆฌ๊ฐ ๋ชฉํ๋ก ํ๋ ๊ฒ์ ์ฌ์ ํ $p(y \vert x)$์ด๋ค. Discriminative ๋ชจ๋ธ์ $p(y \vert x)$๋ฅผ ํ์ตํ๋ ๋ฐ๋ฉด, Generative ๋ชจ๋ธ์ $p(x \vert y)$์ $p(y)$๋ฅผ ์ ์ํ๊ณ ํ์ตํ์ฌ $p(y \vert x)$์ ๊ฐ์ ๊ฐ์ ์ ์ผ๋ก ์ ๋ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ๋ค.
๊ฒฐ๊ตญ Discriminative๋ Generative๋ ํฐ ํ๋ฆ์ ๋์ผํ์ง๋ง, ๊ตฌํ๋ ๊ณผ์ ์ด direct์ด๋ indirect์ด๋์ ์ฐจ์ด์ผ ๋ฟ์ด๋ค.
(์ฌ์ ์ง์) Bayes Rule
Bayes Rule์ ์ฉ์ด๋ฅผ ์ ๋ฆฌํด๋ณด์.
- $p(y \vert x)$: posterior probability
- ๋ฐ์ดํฐ X์ ๋ํ ๋ ์ด๋ธ Y์ ํ๋ฅ ์ด๋ค.
- Classification์ ๊ธฐ์ค์ด ๋๋ค.
- $p(y)$: prior probability
- ์ ๋ต ๋ ์ด๋ธ์ ๋ถํฌ๋ฅผ ํตํด ์ป๋๋ค.
- ๋ ์ด๋ธ y์ ์ / ์ ์ฒด ๋ฐ์ดํฐ ์
- $p(x \vert y)$: likelihood
- ๋ ์ด๋ธ Y๋ฅผ ๊ฐ๋ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์๋ฏธํ๋ค.
- Generative Model์ ์ด ํ๋ฅ ์ ๋ชจ๋ธ๋งํ๊ณ ๋ ํ์ตํ๋ค.
- $p(x)$
- ๋ณดํต ๊ฐ์ ๊ตฌํ ์๋ ์๊ณ , ๊ตฌํ ํ์๋ ์๋ค.
- ๊ทธ๋์ ์ ์ ๊ฒฝ ์ฐ์ง ์๋๋ค.
๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋งํ์๋ฉด, Logistic Regression์ด Discriminative Model์ ์ํ๋ค. Naive Bayes Classifier๋ Generative Model์ ์ํ๋ค. ๋ ์๋์ ์ธ๊ธ๋๋ GDA(Gaussian Discriminant Analysis)๋ Generative Model์ด๋ค.
Gaussian Discriminant AnalysisGDA
GDA๋ ์ด๋ฆ์ โDiscriminantโ๊ฐ ๋ค์ด๊ฐ์ง๋ง, Generative Model์ด๋ค. GDA์์๋ $p(x \vert y)$๊ฐ multivariate normal distribution์ ๋ง์กฑํ๋ค๊ณ โ๊ฐ์ โํ๋ค. GDA์ ๋ํด ๋ณธ๊ฒฉ์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ์ ์ multivariate normal distribution์ ๊ฐ๋ณ๊ฒ ์ดํด๋ณด์.
(์ฌ์ ์ง์) Multi-variate normal distribution
๋ฐํ์ด ๋๋ uni-variate Gaussian ๋ถํฌ๋ฅผ ๋จผ์ ์ดํด๋ณด์.
- $E[x]=\mu$
- $\textrm{Cov}(x) = E[(x-\mu)^2]$
์ด์ multivariate Gaussian ๋ถํฌ์ ๊ฒฝ์ฐ๋ฅผ ์ดํด๋ณด์. multivariate Gaussian์ ๊ฒฝ์ฐ ํ๊ท ์ mean vector $\mu \in \mathbb{R}^n$๋ก, ๋ถ์ฐ์ ๊ณต๋ถ์ฐCovariance๋ผ๋ ์ด๋ฆ์ผ๋ก covariance matrix $\Sigma \in \mathbb{R}^{n \times n}$์ผ๋ก ํํ๋๋ค.
์ด๋, $\lvert \Sigma \rvert$๋ Covariance Matrix $\Sigma$์ determinant ๊ฐ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ๋ํ ์์ ๋ค์๊ณผ ๊ฐ๋ค.
- $E[X] = \int_{x}{x p(x; \mu, \Sigma) dx}$
- $\textrm{Cov}(X) = E[(X-E[X])(X-E[X])^{T}]$
- $\mu$๊ฐ zero-vector(=zero mean)์ด๊ณ $\Sigma = I$(=identity covariance)์ธ ๊ฒฝ์ฐ๋ฅผ standard normal distribution์ด๋ผ๊ณ ํ๋ค.
GDA Modeling
binary classification ๋ฌธ์ ๋ฅผ GDA๋ก ๋ชจ๋ธ๋ง ํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ๊ฐ์ ์ ํ๋ค.
- $y \sim \textrm{Bernoulli}(\phi)$
- ์ด ๋ถ๋ถ์ ๊ฐ์ ์ด ์๋๋ค. ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ผ์ $y$๋ ๋ฒ ๋ฅด๋์ด ๋ถํฌ์ผ ์ ๋ฐ์ ์๋ค.
- $\phi = 0.5$๋ผ๋ฉด uniform distribution์ด ๋ ๊ฒ์ด๋ค.
- ์ฐธ๊ณ ๋ก $y$์ ๋ํ ๋ถํฌ๋ ์ด๋ค ๋ฌธ์ ๋ฅผ ํธ๋์ง์ ๋ฐ๋ผ ์๋์ผ๋ก ๊ฒฐ์ ๋๊ธฐ ๋๋ฌธ์ ๊ฐ์ ์ ๋์ ํ๋ ๋ถ๋ถ์ด ์๋๋ค.
- $x \vert y = 0 \sim \mathcal{N}(\mu_0, \Sigma)$
- $x \vert y = 1 \sim \mathcal{N}(\mu_1, \Sigma)$
๋ถํฌ๋ฅผ ์์ผ๋ก ๊ธฐ์ ํ๋ฉด ์๋์ ๊ฐ๋ค.
- $p(y) = \phi^y (1-\phi)^{(1-y)}$
- $p(x \vert y=0) = \frac{1}{\sqrt{2\pi}{\lvert \Sigma \rvert}^{1/2}}\exp{\left[ -\frac{1}{2}(x - \mu_0)^{T}\Sigma^{-1}(x-\mu_0) \right]}$
- $p(x \vert y=1) = \frac{1}{\sqrt{2\pi}{\lvert \Sigma \rvert}^{1/2}}\exp{\left[ -\frac{1}{2}(x - \mu_1)^{T}\Sigma^{-1}(x-\mu_1) \right]}$
์ฐ๋ฆฌ์ GDA ๋ชจ๋ธ์ parameter๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- $\phi \in \mathbb{R}$
- $\mu_0, \mu_1 \in \mathbb{R}^n$
- $\Sigma \in \mathbb{R}^{n \times n}$ 2
์ฐ๋ฆฌ๋ ์์ $\phi$, $\mu_0$, $\mu_1$, $\Sigma$๋ฅผ ํ์ต์ํฌ ๊ฒ์ด๋ค!
Joint Likelihood $L(\phi, \mu_0, \mu_1, \Sigma)$๋ฅผ ์ ์ํด๋ณด์.
์ ์ Discriminant Learning์์์ Conditional Likelihood์ ๋น๊ตํด๋ณด์.
parameter์ ์ธก๋ฉด์์ $\theta$์ $\phi$, $\mu_0$, $\mu_1$, $\Sigma$๋ก ์ฐจ์ด๊ฐ ์๊ณ , Maximize ๋์๋ Discriminant Learning์ ๊ฒฝ์ฐ $p(y \vert x)$๋ฅผ Maximizeํ๋ ๋ฐ๋ฉด Generative Learning์ $p(x \vert y)p(y)$๋ฅผ Maximizeํ๊ณ ์๋ค.
MLE on GDA
์ ์ํ $L(\phi, \mu_0, \mu_1, \Sigma)$๋ฅผ Maximize ํ์. ์ด๋, $L(\phi, \mu_0, \mu_1, \Sigma)$์ $\log$๋ฅผ ์ทจํ $l(\phi, \mu_0, \mu_1, \Sigma)$๋ฅผ ๋์ Maximizeํ๋ค.
$l$์ Maximizing ํ๋ parameter์ ๊ฐ์ ๋ค์๊ณผ ๊ฐ๋ค. ๊ฐ์์์๋ ์ ๋ ๊ณผ์ ์ ์๋ตํ์๋ค. (์๋ง parameter ํ๋ ์ก๊ณ ๋ฏธ๋ถํด์ ์ ๋ํ ๋ฏ?)
- $\phi = \frac{\sum_{i=1}^{m} {y^{(i)}}}{m} = \frac{\sum_{i=1}^{m} {1\{y^{(i)}=1\}}}{m}$
- $\mu_0 = \frac{\sum_{i=1}^{m} { 1\{y^{(i)}=0\} x^{(i)} }}{\sum_{i=1}^{m} {1\{y^{(i)}=0\}}}$
- $\mu_1 = \frac{\sum_{i=1}^{m} { 1\{y^{(i)}=1\} x^{(i)} }}{\sum_{i=1}^{m} {1\{y^{(i)}=1\}}}$
- $\Sigma = \frac{\sum_{i=1}^{m} {(x^{(i)} - \mu_{y^{(i)}})(x^{(i)} - \mu_{y^{(i)}})^{T}}}{m}$
$\mu_0$์ ์ ์ดํด๋ณด์. $\mu_0$์ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ก ํ์ด์ฐ๋ฉด, โ$y=0$์ธ feacture vector๋ค์ ํฉ์ $y=0$์ ์๋ก ๋๋ ๊ฒโ ์ฆ, ํ๊ท ์ด๋ค!! ์ด ๊ฒฐ๊ณผ๋ $\mu_0$๊ฐ $y=0$์ธ ์ ๋ต์ ๋ํ ํ๊ท ์ด๋ผ๋ ์ ์์๋ ์๋ฏธ๊ฐ ํตํ๋ค.
์ด ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋ํ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ ๊ทธ๋ฆผ์ ๊ทธ๋ ค์ง ์ง์ ์ $p(y=1 \vert x)=0.5$๊ฐ ๋๋ decision boundary์ ์ญํ ์ ํ๋ค!!
MLE์ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ฐ๋ฆฌ๋ $\phi$, $\mu_0$, $\mu_1$, $\Sigma$์ ์ ํํ ๊ฐ์ ์ป๊ฒ ๋์๋ค. ์ด parameter๋ค์ ํ์ฉํด prediction ํ ์ ์๋ค.
GDA vs. Logistic Regression
๊ณ ์ ๋ $\phi$, $\mu_0$, $\mu_1$, $\Sigma$์ ๋ํด $p(y=1 \vert \phi, \mu_0, \mu_1, \Sigma)$๋ฅผ $x$์ ํจ์๋ก ๊ทธ๋ ค๋ณด์.
๊ทธ๋ฌ๋ฉด,
์ฆ, $p(y=1 \vert \phi, \mu_0, \mu_1, \Sigma)$๋ sigmoid์ shape์ด ๋์จ๋ค!!
์์ ์ฌ์ค์ GDA์ Logistic Regression์ด ๋ณธ์ง์ ์ผ๋ก ๋์ผํ๋ค๋ ๊ฒ์ ๋งํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์ฐ๋ฆฌ๋ ์ธ์ GDA๋ฅผ ์ฐ๊ณ , ์ธ์ Logistic Regression์ ์จ์ผ ํ ๊น??
GDA์์ ํ๋ ๊ฐ์ ๋ค์ Logistic Regression์์ ํ๋ hypothesis $h_{\theta}(x)$์ sigmoid ๊ฐ์ ๋ณด๋ค ๋ ๊ฐ๋ ฅํ๋ค. ๊ทธ๋์ GDA๋ Logistic Regression์ ์์(imply)ํ๋ค. ๊ทธ๋ฌ๋ ๋ฐ๋ ๋ฐฉํฅ์ ๋ถ๊ฐ๋ฅํ๋ค. ์ฆ, $p(y \vert x)$์ด sigmoid๋ผ๊ณ ํด์ $p(x \vert y)$๊ฐ multivariate normal distribution์ธ ๊ฒ์ ์๋๋ค.
GDA๋ ๋ ๊ฐ๋ ฅํ ๊ฐ์ ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ์ค์ dataset์ด ๊ทธ ๊ฐ์ ์ ๋ง์กฑํ์ง ์๋๋ค๋ฉด, ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๊ทธ๋์ dataset์ ๋ถํฌ๋ฅผ ์ ํํ ์๊ณ ์๋ค๋ฉด, GDA๋ก ์ ๊ทผํ ์ ์์ง๋ง ๊ทธ๋ ์ง ์๋ค๋ฉด Logistic Regression์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ธธ ๊ถ์ฅํ๋ค. Logistic Regression์ ๋ ์ ์ ๊ฐ์ ์ ์ฑ์ฉํ๋ ๋์ ์ ๋ robust ํ๊ณ ์๋ชป๋ ๋ชจ๋ธ๋ง์ ๋ ๋ฏผ๊ฐํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ผ๋ฐ์ ์ผ๋ก Logistic Regression๊ณผ ๋น๊ตํ์ ๋, GDA๋ small dataset์์ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ธ๋ค๊ณ ํ๋ค. ๋ฐ๋ฉด, huge dataset์์๋ Logistic Regression์ด ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ธ๋ค. ๋จ, ๋ง์ฝ $p(x \vert y)$์ ๋ํ GDA์ ๊ฐ์ ์ด ์ณ๋ค๋ฉด, huge dataset์์๋ GDA๊ฐ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ธ๋ค.
์์ฆ์ CIFAR, ImageNet๊ณผ ๊ฐ์ huge dataset์ด ์ ๊ตฌ์ถ๋์ด ์์ด, Logistic Regression์ด ๋ ๊ฐ์ธ๋ฅผ ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ dataset์ด ์ ๊ตฌ์ถ๋์ง ์์๊ฑฐ๋ dataset์ ํฌ๊ธฐ๋ฅผ 100๊ฐ๋ก ์ ํํ ์ํฉ์ด๋ผ๋ฉด, GDA๊ฐ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์๋ค.
-
์ค์ ๋ก๋ $p(x \vert y)$๋ง ํ์ตํ๊ณ $p(y)$๋ ํ์ตํ์ง ์๋๋ค.ย ↩
-
mean vector๋ $\mu_0$, $\mu_1$์ผ๋ก ๋ ๊ฐ์ธ ๋ฐ๋ฉด Covariance matrix $\Sigma$๋ก ํ๋์ด๋ค. ์ด๊ฒ ์ญ์ GDA๋ฅผ ๋ชจ๋ธ๋ง ํ๋ ๊ณผ์ ์์ ๋์ ํ ๊ฐ์ ์ค ํ๋์ด๋ค. ์ผ์ข ์ design choice! ์ํ๋ค๋ฉด $\Sigma_1$, $\Sigma_2$๋ก ๋ถ๋ฆฌํ ์๋ ์๋ค.ย ↩