Exponential Family, and GLM
๋ณธ ๊ธ์ 2018-2ํ๊ธฐ Stanford Univ.์ Andrew Ng ๊ต์๋์ Machine Learning(CS229) ์์ ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
โ lecture 4
์ฃผ์!: ์ด๋ฒ ๊ธ์ ์ ๊ฐ ์๋ฒฝํ ์ดํดํ์ง ๋ชปํ ์ฃผ์ ๋ฅผ ๋ค๋ฃจ๊ณ ์์ด, ๋ถ์กฑํ ์ ์ด ๋ง์ต๋๋ค.
์ด๋ฒ ๊ธ์์๋ ์์์ ์ดํด๋ณธ Linear Regression, Logistic Regression ๋ชจ๋ธ์ ์ ๋ถ ํฌ๊ดํ๋ ์ผ๋ฐํ๋ ํํ์ Linear Model์ธ GLMGeneralized Linear Model์ ์ดํด๋ณธ๋ค.
(์ฌ์ ์ง์) Bernoulli Distribution
์ด์ฐ ํ๋ฅ ๋ถํฌDiscrete Probability Distribution์ ์ผ์ข ์ด๋ค. Binary Classification์ด ๊ฐ๋ ํ๋ฅ ๋ถํฌ์ด๋ค. ๋ค์๊ณผ ๊ฐ์ ํํ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด๋ $\phi$๋ โprobability of eventโ์ด๋ค.
The Exponential Family
์ธ์์๋ ์ ์์์ด ๋ง์countless Distribution์ด ์กด์ฌํ ๊ฒ์ด๋ค. ํ์ง๋ง Gaussian ๋ถํฌ์ Bernoulli ๋ถํฌ ๊ฐ์ด ์ธ๊ฐ์ ๋ช๋ช Distribution์ ์์์ ํํ๋ก ์ ํํํ๊ณ ๋ถ์ํ์๋ค.
๊ทธ๋ฌ๋ ์ค Distribution์์ ๋ณด์ด๋ ์ด๋ค โํจํดโ์ ๋ฐ๊ฒฌํ๊ฒ ๋์๊ณ , ๊ทธ ํจํด์ ๊ฐ์ง๋ Distribution์ ๋ชจ์ Family๋ผ๊ณ ๋ถ๋ฆฌ๋ ์งํฉ์ ์ ์ํ๋ค. ์ด๋ฒ์ ๋ค๋ฃจ๋ Exponential Family๋ ๊ทธ๋ฐ ํน์ ํจํด์ ๋ณด์ด๋ ํ๋ฅ ๋ถํฌ๋ฅผ ํฌ๊ดํ๋ ๊ฒ์ด๋ค.
ํ๋ฅ ๋ถํฌ๊ฐ ๋ค์๊ณผ ๊ฐ์ ๊ผด์ ๊ฐ์ง๋ฉด, โํ๋ฅ ๋ถํฌ๊ฐ Exponential Family์ ์ํ๋ค.โ๊ณ ๋งํ๋ค.
์ด๋ ์์ ํํ์ ๋ฑ์ฅํ๋ ๋ณ์์ ํจ์๋ค์ ๋ค์๊ณผ ๊ฐ์ ์ด๋ฆ์ ๊ฐ์ง๋ค. (์ธ์ธ ์ ๋๋ก ์ค์ํ์ง๋ ์๋ค.)
- $y$: data
- $\eta$: natural parameter (of distribution)
- $T(y)$: sufficient statistic
- $b(y)$: base measure
- $a(\eta)$: log partition function
์ค์์ ๋ํ ์ค๋ช ์ ์ข๋ ๋ค์ด๋ณด์.
- $\eta$๋ distribution์ parameter์ด๋ค. parameter of distribution
- ์ผ๋ฐ์ ์ผ๋ก $T(y)$๋ $y$๋ก ์ค์ ํ๋ค.
- $\eta$๋ vector, $T(y)$๋ vector function์ธ ๋ฐ๋ฉด, $b(y)$์ $a(\eta)$๋ scalar function์ด๋ค.
- $a(\eta)$๋ ๋ถํฌ๋ฅผ normalizeํ๋ ์ญํ ์ ํ๋ค. $a(\eta)$์ ์ ์ค์ ํจ์ผ๋ก์จ ํ๋ฅ ๋ถํฌ์ ์ ๋ถ/๋ง์ ๊ฐ์ 1๋ก ๋ง๋ค ์ ์๋ค.
์ง๊ธ๋ถํฐ๋ Bernoulli ๋ถํฌ์ Gaussian ๋ถํฌ๊ฐ Exponential Family์ ์ํจ์ ์ดํด๋ณผ ๊ฒ์ด๋ค!
Bernoulli Distribution โ Exponential Family
Bernoulli Distribution์ binary data์ ๋ํ ํ๋ฅ ๋ถํฌ์ด๋ค. $\phi$๋ probability of event๋ก Bernoulli Distribution์ ์๋์ ๊ฐ๋ค.
์ฐ๋ฆฌ๋ ์์ Bernoulli Distribution ์์ Algebraic Massage1๋ฅผ ํตํด Bernoulli Distribution์ด Exponential Family์ ์ํจ์ ๋ณด์ผ ๊ฒ์ด๋ค!
Bernoulli Distribution ์์ ๋ค์๊ณผ ๊ฐ์ด ๋ณํํด๋ณด์.
์ ์์์ $\eta$, $T(y)$, $a(\eta)$, $b(y)$๋ฅผ ์ฐพ์๋ณด๋ฉด
- $\eta$: $\log{(\phi / (1-\phi))}$
- $T(y)$: $y$
- $a(\eta)$: $-\log{(1-\phi)}$
- ์ด๋ $\eta = \log{(\phi / (1-\phi))}$์์ ์ด์ฉํด $\eta$์ ๋ํ ์์ผ๋ก ๋ค์ ์ฐ๋ฉด,
- $\phi = 1/(1+e^{-\eta})$
- $a(\eta) = \log{(1+e^{\eta})}$
- $b(y)$: $1$
์ฆ, ๊ธฐ์กด์ Bernoulli Distribution์ ์ ์ ํ ๋ณํํด์ $\eta$, $T(y)$, $a(\eta)$, $b(y)$๋ฅผ ์ ์ค์ ํด์ค์ผ๋ก์จ Bernoulli Distribution์ด Exponential Family์ ์ํจ์ ๋ณด์๋ค!
Gaussian Distribution โ Exponential Family
์ด๋ฒ์๋ Gaussian Distribution์ด Exponential Family์ ์ํจ์ ์ดํด๋ณด์. ์ด๋, Variance $\sigma^{2}$๋ ์ด๋ค ํจ์๊ฐ ์๋๋ผ ๊ณ ์ ๋์ด ์๋ค. ์ฌ๊ธฐ์์ ์ฐ๋ฆฌ๋ $\sigma^{2}$๊ฐ $1$์ด๋ผ๊ณ ๊ฐ์ ํ๋ค.
Gaussian Distribution์ ์์ ์๋์ ๊ฐ๋ค.
์ด์ ์ ์์ ์ ์ ํ Algebraic Massage ํ ๊ฒ์ด๋ค.
์ ์์์ $\eta$, $T(y)$, $a(\eta)$, $b(y)$๋ฅผ ์ฐพ์๋ณด๋ฉด
- $\eta$: $\mu$
- $T(y)$: $y$
- $a(\eta)$: $\mu^{2} / 2 = \eta^{2} / 2$
- $b(y)$: $(1/\sqrt{2\pi})\exp{(-y^{2} / 2)}$
์ฆ, ๊ธฐ์กด์ Gaussian Distribution์ ์ ์ ํ ๋ณํํด์ $\eta$, $T(y)$, $a(\eta)$, $b(y)$๋ฅผ ์ ์ค์ ํด์ค์ผ๋ก์จ Gaussian Distribution์ด Exponential Family์ ์ํจ์ ๋ณด์๋ค!
์ง๊ธ๊น์ง ์ดํด๋ณธ Bernoulli Distribution, Gaussian Distribution ์ธ์๋ ๋ง์ ํ๋ฅ ๋ถํฌ๋ค์ด Exponential Family์ ์ํ๋ค.2
Generalized Linear Model
์ง๊ธ๋ถํฐ ์ฐ๋ฆฌ๋ ์ผ๋ฐ์ ์ธ ํํ์ Regression๊ณผ Classification ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ๋ชจ๋ธ๋ง ํ๋์ง์ ๋ํด ๋ค๋ฃฐ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ ์ฃผ์ด์ง ์ํฉ์ $x$๋ก ๋๊ณ , random variable $y$๋ฅผ function of $x$๋ก ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๋ $x$์ ๋ํ $y$์ ํ๋ฅ ๋ถํฌ๋ฅผ ์์ธกํ ๊ฒ์ด๋ค.
GLM์ ๋ชจ๋ธ๋ง ํ ๋ ์ฐ๋ฆฌ๋ ๋ค์์ 3๊ฐ์ง๋ฅผ ๊ฐ์ ํ๋ค.
- $y \vert x; \theta \sim \textrm{ExponentialFamily}(\eta)$
์ฆ, ์ฃผ์ด์ง $x$, $\theta$์ ๋ํ $y$์ ํ๋ฅ ๋ถํฌ๊ฐ $\eta$๋ฅผ ํ๋ผ๋ฏธํฐ๋ก ํ๋ Exponential family์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค. - natural parameter $\eta$์ input $x$๋ linearly related ๋์ด ์๋ค: $\eta = \theta^{T} x$
- ์ฐ๋ฆฌ๋ ํ์ต์ ํตํด์ prediction $h(x)$๊ฐ $\textrm{E}[y \vert x; \theta]$๋ฅผ ๋ง์กฑํ๋๋ก ํ ๊ฒ์ด๋ค3: $h(x) = \textrm{E}[y \vert x; \theta]$
์์ 3๊ฐ์ง ๊ฐ์ ๋ค, ๋๋ Design choice๋ฅผ ํตํด์ ์ฐ๋ฆฌ๋ ํ๋ฅญํ Generalized Linear Model์ ์ป๊ฒ ๋๋ค. GLM์ด ์ค์ํ ์ด์ ๋ GLM์ด Learning์์ ์ ์ฉํ ์ฌ๋ฌ ์ฑ์ง๋ค์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค!
์ํฉ์ ๊ทธ๋ฆผ์ผ๋ก ์ดํดํด๋ณด์.
- ๊ฐ์ (2)์ ๋ฐ๋ผ $\eta=\theta^{T}x$์ด๋ฏ๋ก $\eta$๋ Linear Model์ ์ถ๋ ฅ๊ฐ์ด๋ค.
- ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ชฉ์ ์ ๋ฐ๋ผ ์ ์ ํ Distribution์ ๋์์ธ ํ๋ค. = ์ ์ ํ $a$, $b$, $T$๋ฅผ ์ ํ๋ค.
์ด๋ฒ์ Training/Test Phase์์ ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ์๋ํ๋์ง๋ฅผ ์ดํด๋ณด์.
- Training์์ ์ํฅ์ ๋ฐ๋ ๊ฒ์ ์ค์ง Linear Model์ด๋ค. Distribution์ ์ ํ ์ํฅ์ด ์์ผ๋ฉฐ, Learning์ ๋์์ด ์๋๋ค.
- ์ฐ๋ฆฌ๋ Distribution์ ์ถ๋ ฅ๊ฐ์ผ๋ก Test๋ฅผ ์งํํ๋ค.
- Distribution์ ์ถ๋ ฅ์ผ๋ก ํ๊ท ๊ฐ์ธ $\textrm{E}[y \vert x ; \theta]$๋ฅผ ์ป๊ณ , ๊ฐ์ (3)์ ๋ฐ๋ผ ๊ทธ๊ฒ์ $h_{\theta}(x)$์ด๋ค.
- Distribution์ ์ถ๋ ฅ์ ์ ๋ต $y$์ ๋น๊ต๋์ด $\theta$ ๊ฐ์ ๊ฐฑ์ ํ๋ ์งํ๋ก ์ฌ์ฉ๋๋ค.
Ordinary Least Squares
์ง๊ธ๊น์ง ์ ์ํ GLM์ ์๋ฆฌ๋ฅผ GLM์ ํน์ํ ๊ฒฝ์ฐ ์ค ํ๋์ธ Ordinary Least Squares๋ฅผ ์ดํด๋ด์ผ๋ก์จ ๊ณฑ์น์ด ๋ณด์.
์์ธกํ๊ณ ์ ํ๋ target variable $y$(GLM์์๋ response variable์ด๋ผ๊ณ ๋ ํจ.)๊ฐ ์ฐ์์ ์ด๊ณ , Gaussian $\mathcal{N}(\mu, \sigma^{2})$๋ฅผ ๋ง์กฑํ๋ค๊ณ ๊ฐ์ ํ ๊ฒ์ด๋ค.
Gaussian์ Exponential Family์ ์ํ๋ฏ๋ก, Gaussian์ ํ๋ผ๋ฏธํฐ $\mu$๋ Exponential Family์ $\eta$๊ฐ ๋๋ค. : $\mu = \eta$
๊ทธ๋ฆฌ๊ณ Ordinary Least Squares์์ ์ค์ ํ hypothesis $h_{\theta}(x)$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ๋๋๋ค.
๊ฐ ๊ณผ์ ์ ๋ํ ์์ธํ ์ค๋ช ์ ๋ค์ด๋ณด์.
- $h_{\theta}(x) = \textrm{E}[y \vert x ; \theta]$๋ 3๋ฒ์งธ ๊ฐ์ ์ ํตํด ์ ์๋๋ค.
- $\textrm{E}[y \vert x ; \theta] = \mu$๋ $y \vert x ; \theta \sim \mathcal{N}(\mu, \sigma^{2})$์์ ํตํด ์ ์๋๋ค.
- $\mu = \eta$๋ Gaussian์ ํ๋ผ๋ฏธํฐ๋ฅผ Exponential Family์ ํ๋ผ๋ฏธํฐ๋ก ๋ณํํ ๊ฒ์ด๋ค.
- $\eta = \theta^{T}x$๋ 2๋ฒ์งธ ๊ฐ์ ์ ํตํด ์ ์๋๋ค.
Relation btw three parameters
์์์ ๋์จ $\mu$๋ฅผ canonical parameter๋ผ๊ณ ๋ถ๋ฅธ๋ค. canonical parameter๋ Regression์ ๋ชฉ์ ์ ๋ฐ๋ผ ์ค๊ณํ Distribution์ด ๊ฐ๋ ๋ณ์์ด๋ค. ์๋ฅผ ๋ค์ด Bernuolli Distribution์์๋ $\phi$๊ฐ canonical parameter์ด๋ค.
cononical parameter $\mu$์ natural parameter $\eta$์ ๋ํ ๊ด๊ณ๋ canonical response function $g(\eta)$์ผ๋ก ํํ๋๋ค. ๊ทธ๋ฆฌ๊ณ canonical function์ inverse๋ canonical link function $g^{-1}(\mu)$๋ก ํํ๋๋ค.
model parameter $\theta$, natural parameter $\eta$, canonical parameter $\mu$ or $\phi$, canonical function $g(\eta)$, $g^{-1}(\mu)$์ ๋ํ ๊ด๊ณ๋ฅผ ๋ค์ด์ด๊ทธ๋จ์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Logistic Regression์ ์๋ก ๋ค์ด ์ดํด๋ณด์!
๋๋๊ฒ๋ ์ง๊ธ๊น์ง GLM์์ ์ดํด๋ณธ ํ๋ฆ์ด Logistic Regression์ ๊ฒฐ๊ณผ์ ๊ทธ๋๋ก ๋ น์์์๋ค.
๊ฒฐ๊ตญ sigmoid function์ ๊ทธ๋ฅ ๋์จ ๊ฒ์ด ์๋๋ผ Bernoulli Distribution์ GLM์ผ๋ก ํด์ํ์ฌ ์ ๋ํ ๊ฒฐ๊ณผ์ธ ๊ฒ์ด๋ค.
๋งบ์๋ง
GLM์ ์ดํด๋ด์ผ๋ก์จ ์ง๊ธ๊น์ง ํํด์๋ Linear Regression ๋ชจ๋ธ์ ํจ๋ฌ๋ค์์ ์ฟ๋ณผ ์ ์์๋ค. Linear Regression๊ณผ Logistic Regression ๋ก๋ ์ธ์์ ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค. ์์ผ๋ก ๋ ๋ณต์กํ๊ณ ์ ๊ตํ Regression์ ํ์ตํ๊ณ ์ฌ์ฉํ๊ฒ ๋ ํ ๋ฐ, ๊ทธ๋์ Regression Model์ด GLM์ ํจ๋ฌ๋ค์์ ๋ฐํ์ผ๋ก ํ๊ณ ์์์ ์ธ์งํ๋ค๋ฉด ๋ณธ ๊ธ์ ์ ์ดํดํ ๊ฒ์ด๋ค.
GLM์ ์์ฝํด๋ณด์.
- ์ฐ๋ฆฌ๊ฐ Regression์์ ์ฐ๋ ๋๋ถ๋ถ์ ๋ชจ๋ธ์ Exponential Family์ ์ํ๋ค.
- GLM์ Exponential Family์ ์ํ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ํจํด์ ์ ๋ฆฌํ ๊ฒ์ด๋ค.
- GLM์ Linear Model๊ณผ ์ฐ๋ฆฌ๊ฐ ๋์์ธํ Distribution์ด ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋์ด์ผ ํ๋์ง๋ฅผ ๋งํด์ค๋ค.
- Logistic Regression์ ๊ฒฝ์ฐ, Bernoulli ๋ถํฌ๋ฅผ Exponential Family์ ํํ๋ก ๋ฐ๊ฟ์ผ๋ก์จ $\theta^{T}x$์ ํ๋ฅ $\phi$๋ฅผ ์ฐ๊ฒฐํ๋ sigmoid ํจ์๋ฅผ ์ฐพ์ ์ ์์๋ค.
-
lecture ๊ฐ์ฐ์๊ฐ ์ฌ์ฉํ ๋ง์ธ๋ฐ, ์ ๋ง ๋ง์์ ๋ ๋ค!!! Algebraic Massage๋ ํ๋ฅ ๋ถํฌ ์์ ํํ๋ฅผ ๋ณํํ๋ค๋ ๋ง์ด๋ค.ย ↩
-
Poisson Distribution, Gamma Distribution, Drichlet Distribution ๋ฑ๋ฑโฆย ↩
-
๋ณธ๋์ ๋ชฉํ์ $T(y)$์ ํ๊ท expected value๋ฅผ ๊ตฌํ๋ ๊ฒ์ด์ง๋ง, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ $T(y)=y$๋ก ๋๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ $\textrm{E}[y \vert x; \theta]$๋ฅผ ๊ตฌํ๋ ๊ฒ์ ๋ชฉํ๋กํ๊ฒ ๋๋ค.ย ↩