Bayesian Regression
โMachine Learningโ์ ๊ณต๋ถํ๋ฉด์ ๊ฐ์ธ์ ์ธ ์ฉ๋๋ก ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
๊ธฐํ ์๋ฆฌ์ฆ: Bayesian Regression
Bayesian Linear Regression
์ด๋ฒ ํฌ์คํธ์์๋ ์์์ ๋ค๋ฃฌ <parameter posterior>, <posterior predictive distribution>์ Regression Problem์ ์ ์ฉํ๋ค. ์ฌ์ค <Bayesian Linear Regression>์ ๋จ์ํ <posterior predictive distribution under the regression problem>์ผ ๋ฟ์ด๋ค! ๐
๊ด์ธก๋ ๋ฐ์ดํฐ $S = (X, y)$๊ฐ ์กด์ฌํด ์ด๊ฒ์ผ๋ก <parameter prior>๋ฅผ ๊ฐฑ์ ํด๋ณด์. Bayes Rule์ ๋ฐ๋ฅด๋ฉด ์๋์ ๊ฐ์ด <parameter posterior>๋ฅผ ์ ๋ํ ์ ์๋ค.
\[\begin{aligned} p(\theta \mid S) &= \frac{p(S \mid \theta) p(\theta)}{p(S)} = \frac{p(S \mid \theta) p(\theta)}{\int_{\theta'} p(S \mid \theta') p(\theta') d\theta'} \\ &= \frac{p(\theta) \prod^m_{i=1} p(y^{(i)} \mid x^{(i)}, \theta)}{\int_{\theta'} p(\theta') \prod^m_{i=1} p(y^{(i)} \mid x^{(i)}, \theta') d\theta'} \end{aligned}\]์ด๋, likelihood์ $p(y^{(i)} \mid x^{(i)}, \theta)$ ํ ์ ์๋์ ๊ฐ์ด ๊ธฐ์ ํ ์ ์๋ค.
\[p(y^{(i)} \mid x^{(i)}, \theta) = \frac{1}{\sqrt{2\pi} \sigma} \exp \left( - \frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right)\]์ด๊ฒ์ ์๋์ ๊ฐ์ regression์ ๊ฐ์ ์ ํตํด ์ ๋๋ ๊ฒ์ผ๋ก $y$๋ฅผ ํ๋์ ํ๋ฅ ๋ณ์๋ก ์ทจ๊ธํ๋ค๋ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค. ๋ํ, ์ด์ ํฌ์คํธ์์๋ likelihood function์ด ์ดํญ ๋ถํฌ, ์ ๊ท ๋ถํฌ ๋ฑ๋ฑ์ ๋ถํฌ๋ฅผ ๊ฐ์ง ์ ์์๋๋ฐ, regression problem์ ์ํฉ์์๋ likelihood๋ฅผ Gaussian distribution๋ก ์ค์ ํ ์ ๋ฐ์ ์๋ค! ๐
์ด๋ฒ์๋ Regression problem์ ๋ํ <Predictive Distribution>์ ์ดํด๋ณด์. observed data $S = (X, y)$(train-set)์ unobserved data $S^{*} = (X^{*}, y^{*})$(test-set)๊ฐ ์์ ๋, unobserved data $x^{*} \in X^{*}$์ ๋ํ prediction์ ์ํํ๋ ๊ณผ์ ์์ ์ ๋ํ๋ ๋ถํฌ์ด๋ค.
Definition. Prior Predictive Distribution (Regression)
Let $S = \{ (X, y) \}$ be a set of observed data, $X^{*}$ be a set of unobsersed data, and $x^{*} \in X^{*}$.
Then, the <prior predictive distribution> is
\[p(y^{*} \mid x^{*}) = \int p(y^{*}, \theta \mid x^{*}) d\theta = \int p(y^{*} \mid x^{*}, \theta) p(\theta) d\theta\]๊ทธ๋ฌ๋ <prior predictive distribution>์ observed data $S$๋ฅผ ์ ํ ์ฐ๊ณ ์์ง ์๋ค. observed data๋ฅผ ์ ๋๋ก ํ์ฉํ๋ ค๋ฉด parameter posterior $p(\theta \mid S)$๋ก ์ ๋ํ <posterior predictive distribution>์ ์ฌ์ฉํด์ผ ํ๋ค!
Definition. Posterior Predictive Distribution (Regression)
๋ณดํต $x^{*}$์ $S$๋ฅผ ๋ ๋ฆฝ์ด๋ผ๊ณ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ iid๋ฅผ ๊ฐ์ ํ๋ฏ๋ก,
\[p(y^{*} \mid x^{*}, S) = \int p(y^{*} \mid x^{*}, S, \theta) p(\theta \mid S) d\theta = \int p(y^{*} \mid x^{*}, \theta) p(\theta \mid S) d\theta\]์ผ๋ฐ์ ์ผ๋ก regression problem์์ ์ ์ํ parameter poster $p(\theta \mid S)$์ posterior predictive distribution $p(y^{*} \mid x^{*}, S)$๋ ์ ๋ถ ๊ณ์ฐ์ด ๋งค์ฐ ์ด๋ ต๋ค. ๊ทธ๋์ ๊ทผ์ฌ๋ฅผ ์ด์ฉํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ, ์๋ฆฌ์ฆ์ ๋งจ ์ฒ์์ ๋ค๋ค๋ MAP(Maximum a Posterior)๋ ์ด๋ฐ ๊ทผ์ฌ ๋ฐฉ์ ์ค ํ๋์ด๋ค.
๋คํ์ธ ์ ์ <Bayesian Linear Regression>์ $p(\theta \mid S)$์ $p(y^{*} \mid x^{*}, S)$์ ๋ํ ๋ถํฌํด๊ฐ ์๋ ค์ ธ ์์ผ๋ฉฐ ์๋์ ๊ฐ๋ค.
\[\begin{aligned} \theta \mid S &\sim \mathcal{N} \left( \frac{1}{\sigma^2} A^{-1}X^T\vec{y}, \; A^{-1}\right) \\ y^{*} \mid x^{*}, S &\sim \mathcal{N} \left( \frac{1}{\sigma^2} {x^{*}}^T A^{-1} X^{T} \vec{y}, \; {x^{*}}^T A^{-1} x^{*} + \sigma^2 \right) \end{aligned}\]where $A = \frac{1}{\sigma^2}X^TX + \frac{1}{\tau^2}I$.
์์ ์์ด ์ด๋ป๊ฒ ์ ๋ ๋๋์ง๋ ์์ง ๋ณธ์ธ๋ ์ ๋๋ก ์ดํดํ์ง ๋ชปํด์ ์ถํ์ ๋ณ๋์ ํฌ์คํธ๋ก ์ ๋ ๊ณผ์ ์ ๊ธฐ์ ํ๋๋ก ํ๊ฒ ๋ค ๐
๊ทธ๋๋ ์์ ์์ ํตํด parameter posterior์ posterior predictive distribution์ด Gaussian distribution์ ๋ฐ๋ฅธ๋ค๋ ๊ฒ์ ์ ์ ์์ผ๋ฉฐ, ํนํ prediction $y^{*}$, $y^{*} = \theta^T x^{*} + \epsilon^{*}$์ ๋ํ uncertainty์ parameter $\theta$์ ์ ํ์ ๋ํ uncertainty๋ ๋ ์์ variance ๊ฐ์ ํตํด ํ์ธํ ์ ์๋ค! ๐
๋งบ์๋ง
์ด๋ฒ ํฌ์คํธ๋ฅผ ๋ง์ง๋ง์ผ๋ก Bayesian Approach ์๋ฆฌ์ฆ๊ฐ ๋์ด ๋ฌ๋ค. ์ฉ์ด์ โBayesianโ์ด๋ผ๋ ๋ง์ด ๋ค์ด๊ฐ๋ฉด ์ด๋ ต๊ฒ๋ง ๋๊ปด์ก๋๋ฐ, ์ด๋ฒ ์๋ฆฌ์ฆ๋ฅผ ํตํด ์กฐ๊ธ์ Bayesian Theory๋ฅผ ๊ทน๋ณตํ ๊ฒ ๊ฐ๋ค ๐
<Bayesian Regression>์ด bayesian parameteric regression์ด๋ผ๋ฉด, bayesian regression์ด์ง๋ง non-parameteric model์ธ <Gaussian Process Regression>๋ ์๋ค. ๊ถ๊ธํ๋ค๋ฉด, ํด๋น ํฌ์คํธ๋ฅผ ๋ฐฉ๋ฌธํด๋ณด์ ๐