MLE vs. MAP
โMachine Learningโ์ ๊ณต๋ถํ๋ฉด์ ๊ฐ์ธ์ ์ธ ์ฉ๋๋ก ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
๊ธฐํ ์๋ฆฌ์ฆ: Bayesian Regression
MLE vs. MAP
- MLE = Maximum Likelihood Estimation
- MAP = Maximum A Posteriori
MLE, MAP ๋๋ค <statistical inference>์ ๋ฐฉ๋ฒ๋ก ์ค ํ๋์ด๋ค. ๋๋ค ์ต์ ์ $\theta$ ๊ฐ์ ์ฐพ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
1. MLE
MLE์ ๋ํ introduction์ ์ด ํฌ์คํธ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค. MLE๋ ๊ฐ๋จํ๊ฒ ๋งํด ์๋์ ๊ฐ์ ๊ตฌํ๋ ๊ฒ์ด๋ค.
\[\theta_{\text{MLE}} = \underset{\theta}{\text{argmax}} \; p(X \mid \theta) = \underset{\theta}{\text{argmax}} \prod_{i} p(x_i \mid \theta)\]์ด๋, $P(X\mid \theta)$๋ฅผ โlikelihoodโ๋ผ๊ณ ํ๋๋ฐ, ์ฌ๋ฌ๋ถ์ด ์๊ฐํ๋ Bayesian Rule์ likelihood๊ฐ ๋ง๋ค! MLE์ ์์ production $\prod$ ํ ์ด ์๊ธฐ ๋๋ฌธ์ ๋ณดํต์ MLE ๋ฌธ์ ๋ log-likelihood์์ ์ต๋๊ฐ์ ๊ตฌํ๋ ๋ฐฉ์์ผ๋ก ์ ๊ฐํ๋ค.
\[\theta_{\text{MLE}} = \underset{\theta}{\text{argmax}} \sum_{i} \log \left( p(x_i \mid \theta) \right)\]MLE๋ ์์ log-likelihood ์์ ๋ฏธ๋ถํ ๋ฏธ๋ถ๋ฐฉ์ ์์ ํ์ด $\theta_{\text{MLE}}$๋ฅผ ๊ตฌํ๋ค!
2. MAP
MAP๋ Bayesian Rule์์๋ถํฐ ์ถ๋ฐํ๋ค.
\[P(\theta \mid X) = \frac{P(\theta)P(X \mid \theta)}{P(X)} \propto P(\theta)P(X\mid\theta)\]MAP๋ ๊ทธ ์ด๋ฆ์์๋ถํฐ ์ ์ ์๋ฏ์ด posterior๋ฅผ ์ฌ์ฉํด $\theta$๋ฅผ ์ถ์ ํ๋ค. ์์ ์์ ์ดํด๋ณด๋ฉด posterior๋ prior์ likelihood์ ๊ณฑ์ผ๋ก ์ ๋ํ ์ ์๋ค. ๊ทธ๋์ ์์ ์ ์ด๋ณด๋ฉด MAP๋ MLE๋ฅผ ์ ๋ํ๋ ์์์ likelihood๋ฅผ posterior๋ก ๋ฐ๊ฟ์ฃผ๊ธฐ๋ง ํ๋ฉด ๋๋ค!
\[\begin{aligned} \theta_{\text{MAP}} &= \underset{\theta}{\text{argmax}} P(X \mid \theta) P(\theta) \\ &= \underset{\theta}{\text{argmax}} \left( \log P(X \mid \theta) + \log P(\theta) \right) \\ &= \underset{\theta}{\text{argmax}} \left( \log \prod_{i} P(x_i \mid \theta) + \log P(\theta) \right) \\ &= \underset{\theta}{\text{argmax}} \left( \sum_{i} \log P(x_i \mid \theta) + \log P(\theta) \right) \end{aligned}\]MLE์ MAP์ ์์ ๋น๊ตํ๋ฉด ๋ฑ ํ๋๊ฐ ๋ค๋ฅธ๋ฐ ๋ฐ๋ก MAP์๋ prior $P(\theta)$๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ด๋ค! ์ด๊ฒ์ optimization ๊ณผ์ ์์ $\theta$์ ๋ํ prior๊น์ง ํจ๊ป ๊ณ ๋ คํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ $p(\theta)$์ ๊ฐ์ ๋ฐ๋ผ ์ต์ ํ์ target equation์ ๊ฐ์ด ๋ฌ๋ผ์ง๋๋ฐ, ์ด๊ฒ์ prior $p(\theta)$๊ฐ target equstion์ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๊ฒ์ผ๋ก ์ดํดํ ์๋ ์๋ค. ์ด์ ์ MLE๊ฐ $\theta$๋ฅผ deterministic ํ ๊ฐ์ผ๋ก ์ฌ๊ฒผ๋ ๊ฒ๊ณผ๋ ๋ฌ๋ฆฌ MAP์์๋ $\theta$r๊ฐ prior $p(\theta)$๋ฅผ ๊ฐ๋ RV๋ก ์ทจ๊ธํ๋ค๋ ์๊ฐ๋ ๋๋ณด์ธ๋ค.
MAP๋ฅผ ์ข๋ ์ดํด๋ณด๊ธฐ ์ํด prior $p(\theta)$๋ฅผ ๊ฐ์ฅ ๊ฐ๋จํ ํํ์ธ uniform prior๋ผ๊ณ ๊ฐ์ ํด๋ณด์. ์ด๊ฒ์ ๋ชจ๋ likelihood์ const๋ก ๋์ผํ weight๋ฅผ ์ฃผ๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๊ทธ๋์
\[\begin{aligned} \theta_{\text{MAP}} &= \underset{\theta}{\text{argmax}} \left( \sum_{i} \log P(x_i \mid \theta) + \log P(\theta) \right) \\ &= \underset{\theta}{\text{argmax}} \left( \sum_{i} \log P(x_i \mid \theta) + \text{const} \right) \\ &= \underset{\theta}{\text{argmax}} \sum_{i} \log P(x_i \mid \theta) \\ &= \theta_{\text{MLE}} \end{aligned}\]Boom! uniform prior ์๋์์๋ $\theta_{\text{MLE}} = \theta_{\text{MAP}}$๋ผ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค! ๋ฌผ๋ก prior๋ฅผ Gaussian์ด๋ ๋ค๋ฅธ ํ๋ฅ ๋ถํฌ๋ก ๊ฐ์ ํ๋ค๋ฉด, ์ ํ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ๊ฒ์ด๋ค. ๋ณดํต prior์ ๋ํด ์ด๋ค ๊ฐ์ ์ ์ทจํ๋ค๋ฉด MAP๋ก ํ๊ณ , ๊ทธ๋ ์ง ์๋ค๋ฉด MLE๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
์ฌ์ค MLE์ MAP๋ ๋ชฉํ๋ก ํ๋ ๋ฐ๊ฐ ๋ค๋ฅธ๋ฐ, ์ด๊ฒ์ ์๋์ ๊ฐ์ด ๊ธฐ์ ํ๋ค.
Formally MLE produces the choice that is most likely to generated the observed data.
A MAP estimated is the choice that is most likely given the observed data. In contrast to MLE, MAP estimation applies Bayesโs Rule, so that our estimate can take into account prior knowledge about what we expect our parameters to be in the form of a prior probability distribution.
MLE์ MAP์ ๋ํด ์ถฉ๋ถํ ์ดํดํ๋ค๋ฉด, ์๋์ ์ํฐํด์ ์ฝ์ด๋ณด๋ ๊ฒ์ ์ถ์ฒํ๋ค. Linear Regression์ Frequntist์ Bayesian์ ๊ด์ ์์ ์ ํ์ด๋๋ค.
์ด์ด์ง๋ ํฌ์คํธ์์๋ <predictive distribution; ์์ธก ๋ถํฌ>์ ๋ํด์ ์ดํด๋ณธ๋ค.