Gaussian Process Regression
โMachine Learningโ์ ๊ณต๋ถํ๋ฉด์ ๊ฐ์ธ์ ์ธ ์ฉ๋๋ก ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
๋ณธ ๊ธ์ ์ฝ๊ธฐ ์ ์ โDistribution over functions & Gaussian Processโ์ ๋ํ ๊ธ์ ๋จผ์ ์ฝ๊ณ ์ฌ ๊ฒ์ ๊ถํฉ๋๋ค ๐
๊ธฐํ ์๋ฆฌ์ฆ: Gaussian Process Regression
โDistribution over functions & Gaussian Processโ๋ฅผ ํตํด Gaussian Process๋ก ํจ์์ ๋ํ ํ๋ฅ ๋ถํฌ(distribution over functions)๋ฅผ ์ด๋ป๊ฒ ๋ชจ๋ธ๋งํ๋์ง ์ดํด๋ณด์๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ distribution over functions๊ฐ Bayesian Regression์ ํจ๋ฌ๋ค์ ์๋์์ ์ด๋ป๊ฒ ํ์ฉ๋๋์ง๋ฅผ ์ดํด๋ณธ๋ค๐
Gaussian Process Regression
๋จผ์ <Gaussian Process Regression; ์ดํ GP Regression>์ ์ํํ๊ธฐ ์ํ ์ ์ ์ ํด๋ณด์.
i.i.d. sample์ ๋ชจ์์ธ train set $S = \{ (x_i, y_i)\}^m_{i=1} = (X, y)$์ unknown distribution์์ ์ถ์ถ๋ ์ํ์ด๋ค. ์ด๋, GP Regression์ ์๋์ ๊ฐ์ด Regression model์ ๊ตฌ์ถํ๋ค.
\[y_i = h(x_i) + \epsilon_i \quad (i = 1, \dots, m)\]์ด๋ $\epsilon_i$๋ i.i.d noise๋ก $\epsilon_i \sim N(0, \sigma^2)$์ด๋ค.
<Bayesian Regression>์์ $y_i = \theta^T x_i + \epsilon_i$ ๋ชจ๋ธ๋งํ ๊ฒ๊ณผ ์ฐจ์ด์ ์ด ์๋ค.
์ด์ $h(\cdot)$์ ๋ํด prior distribution over function์ ๋ํ ๊ฐ์ ์ ๋์ ํ๋ค.1 โpriorโ๊ฐ ๋ถ์ ๊ฒ์ ๋์น์ฑ๋ค๋ฉด ์ด๊ฒ์ โposteriorโ๋ก ๊ฐฑ์ ํ๋ฆฌ๋ผ๋ ๊ฒ๋ ์์์ฑ ๊ฒ์ด๋ค ๐ ๋จผ์ $h(\cdot)$๊ฐ zero-mean GP๋ผ๊ณ ๊ฐ์ ํ๋ค.
\[h(\cdot) \sim \mathcal{GP}(0, \; k(\cdot, \cdot))\]โป NOTE: $k(x, xโ)$ is a valid covariance function.
์ด๋ฒ์๋ $S$์ ๋์ผํ unknown distribution์์ ์ถ์ถํ i.i.d. sample์ ๋ชจ์์ธ test set \(T = \left\{ x^{*}_i, y^{*}_i\right\}^{m_{*}}_{i=1} = (X^{*}, y^{*})\)๋ฅผ ์ดํด๋ณด์. ์ด์ ์ <Bayesian Regression>์์๋ Bayesโ rule์ ์ด์ฉํด <parameter posterior> $p(\theta \mid S)$๋ฅผ ์ ๋ํ๊ณ , ์ด๊ฒ์ ํตํด <posterior predictive distribution> $p(y^{*} \mid x^{*}, S)$๋ฅผ ์ ๋ํ๋ค. ๊ทธ๋ฐ๋ฐ GP Regression์์๋ ํจ์ฌ ์ฌ์ด ๋ฐฉ๋ฒ์ผ๋ก posterior predictive distribution์ ์ ๋ํ ์ ์๋ค!! ๐ฒ
Prediction
์ฐ๋ฆฌ๋ prior distribution over function $h(\cdot) \sim \mathcal{GP}(0, \; k(\cdot, \cdot))$์ ์ ์ํ๋ค. GP์ ์ฑ์ง์ ๋ฐ๋ผ $\mathcal{X}$์ subset์ธ $X, X^{*} \subset \mathcal{X}$์ ๋ํด joint distribution $p(\vec{h}, \vec{h^{*}} \mid X, X^{*})$์ ๊ตฌํ๋ฉด ์๋์ ๊ฐ๋ค.
\[\begin{bmatrix} \vec{h} \\ \vec{h^{*}} \end{bmatrix} \mid X, X^{*} \sim \mathcal{N} \left( \vec{0}, \; \begin{bmatrix} K(X, X) & K(X, X^{*}) \\ K(X^{*}, X) & K(X^{*}, X^{*}) \end{bmatrix}\right)\]matrix-form์ ํ๊ธฐ๊ฐ ๋ง์ด ๋ฑ์ฅํ์ง๋ง ๋ฐ๋ก ํ๊ธฐ๋ฅผ ์ค๋ช ํ์ง๋ ์๊ฒ ๋ค ๐
๋ i.i.d. noise์ ๋ํด์ ์๋๊ฐ ์ฑ๋ฆฝํ๋ค.
\[\begin{bmatrix} \vec{\epsilon} \\ \vec{\epsilon^{*}} \end{bmatrix} \sim \mathcal{N} \left( \vec{0}, \; \begin{bmatrix} \sigma^2 I & O \\ O & \sigma^2 I \end{bmatrix}\right)\]์ด์ ์ด๊ฑธ ์ข ํฉํ๋ฉด,
\[\begin{bmatrix} \vec{y} \\ \vec{y^{*}} \end{bmatrix} \mid X, X^{*} = \begin{bmatrix} \vec{h} \\ \vec{h^{*}} \end{bmatrix} \mid X, X^{*} + \begin{bmatrix} \vec{\epsilon} \\ \vec{\epsilon^{*}} \end{bmatrix}\]๊ฐ ๋๋๋ฐ, independent Gaussian random variable์ ํฉ์ ์ญ์ Gaussian์ด๋ฏ๋ก
\[\begin{bmatrix} \vec{y} \\ \vec{y^{*}} \end{bmatrix} \mid X, X^{*} \sim \mathcal{N} \left(\vec{0} , \; \begin{bmatrix} K(X, X) + \sigma^2 I & K(X, X^{*}) \\ K(X^{*}, X) & K(X^{*}, X^{*}) + \sigma^2 I \end{bmatrix}\right)\]์์ ์์ $p(\vec{y}, \vec{y^{*}} \mid X, X^{*})$์ ๋ํ ์์ผ๋ก โjoint distribution of the observed values and testing pointsโ์ด๋ค. regression์ testing points์ ๋ํ ๋ถํฌ๋ฅผ ์ํ๋ฏ๋ก conditional distribution $p(\vec{y^{*}}, \mid \vec{y}, X, X^{*})$์ ๊ตฌํ๋ฉด ์๋์ ๊ฐ๋ค.
\[\vec{y^{*}}, \mid \vec{y}, X, X^{*} \sim \mathcal{N} \left( \mu^{*}, \; \Sigma^{*} \right)\]where ($K^{*} = K(X, X^{*})$)
\[\begin{aligned} \mu^{*} &= K^{*} \left( K + \sigma^2 I \right)^{-1}\vec{y} \\ \Sigma^{*} &= K^{**} + \sigma^2 I - {K^{*}}^T \left( K + \sigma^2 I \right)^{-1} K^{*} \end{aligned}\]์ ๋ ๊ณผ์ ์ conditional distribution of multi-variate Gaussiaion distribution์ ๋ํ ์์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ฉด ๋๋ค. ๐
Boom! ์ด๊ฒ์ผ๋ก ์ฐ๋ฆฌ๋ posterior predictive distribution์ ์ป์๋ค!! ๐คฉ ์ด์ ์ Bayesian Linear Regression์ ๊ฒ๊ณผ ๋น๊ตํด๋ณด๋ฉด GP Regression์ ์ ๋ง ๊ณ์ฐ์ ์ผ๋ก๋ ์ ๋ง ๊ฐ๋จํ ํํ์์ ํ์ธํ ์ ์๋ค ๐
๋ณด์ถฉ
์์์ $h(\cdot)$๊ฐ โpriorโ distribution over functions ๋ผ๊ณ ํ๋ค. ๊ทธ๋ผ โposteriorโ distribution over function์ ์ ๋ํ๋ฉด, ์์์ ์ธ๊ธํ joint distribution $p(\vec{h}, \vec{h^{*}} \mid X, X^{*})$์์ conditional distribution์ ๊ตฌํ๋ฉด ๋๋ค.
\[\begin{bmatrix} \vec{h} \\ \vec{h^{*}} \end{bmatrix} \mid X, X^{*} \sim \mathcal{N} \left( \vec{0}, \; \begin{bmatrix} K(X, X) & K(X, X^{*}) \\ K(X^{*}, X) & K(X^{*}, X^{*}) \end{bmatrix}\right)\]then, the conditional distribution is
\[\vec{h^{*}} \mid \vec{h}, X, X^{*} \sim \mathcal{N} \left( {K^{*}}^T K^{-1} \vec{h}, \; K^{**} - {K^{*}}^TK^{-1}K^{*}\right)\]๊ฐ ๋๋ค. ์ด๊ฒ์ด posterior distribution over function $h(\cdot \mid X)$์ด๋ค!
Insights
์ด๋ฒ ๋ฌธ๋จ์์๋ GP Regression์ ๋ํ ํต์ฐฐ๋ค์ ๋ํด ์ดํด๋ณผ ๊ฒ์ด๋ค. locally-weighted linear regression์ฒ๋ผ GP Regression์ non-parameteric regression model์ด๋ค. ์ด๋ input data์ ํจ์์ ์ ํ์ ๋ํ ๊ฐ์ ์ด๋ ๋คํญ์์ ๋ํ ๊ฐ์ ์ ํ ํ์๊ฐ ์์ผ๋ฉฐ arbitrary function์ ๋ค๋ฃจ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋งํ๋ค! ๐คฉ ๋ํ์์ ๋ค์๋ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋(IMEN472)โ ์์ ์์ non-parameteric model์ ๋ํด ๋ค๋ฃจ๊ธด ํ๋๋ฐ, <GP Regression>์ ๋ค๋ฃจ์ง ์์๋ค.
GP์์ ์ฌ์ฉํ๋ <squared exponential kernel> $k_{SE}(x, xโ)$์ ๋ํด ์ดํด๋ณด์.
\[k_{SE}(x, x') = \exp \left( - \frac{1}{2\tau^2} (x - x')^2 \right) \quad (\tau > 0)\]hyper-parameter์ธ $\tau$๋ smoothness๋ฅผ ์กฐ์ ํ๋ ํ๋ผ๋ฏธํฐ๋ก $\tau$ ๊ฐ์ด ์์์๋ก ๊ฐ๊น์ด ์๋ ์ํ์ ์ฃผ๋ก ๋ณธ๋ค. ๊ทธ๋์ model์ fluctuation์ด ์ฌํด์ง๋ค. ๋ฐ๋๋ก $\tau$ ๊ฐ์ด ์ปค์ง๋ฉด, ๋ฉ๋ฆฌ ์๋ ์ํ๋ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ model์ด smooth ํด์ง๋ค.
๋ค์์ผ๋ก regression noise์ธ $\sigma$(๊ทธ๋ฆผ์์๋ $\sigma_y$)๊ฐ ์๋ค. ์ด ๋ ์์ uncertainty์ ์ ๋๋ฅผ ๊ฒฐ์ ํ๋ ํ๋ผ๋ฏธํฐ๋ก $\sigma$ ๊ฐ์ด ํด์๋ก ๋ฐ์ดํฐ์ noise๊ฐ ํฌ๋ค๊ณ ํ๋จํ๋ค.
๋งบ์๋ง
์ง๊ธ๊น์ง <GP Regression>์ ๋ํด ์ดํด๋ณด์๋ค. ์ด ๋ ์์ bayesian regression model์ด๋ฉด์ non-parameteric model์ธ ๋ ์์ด์๋ค. ๊ฒ๋ค๊ฐ <GP Regression>์ anomaly detection์ ์ฌ์ฉํ๋ค๋ฉด, anomaly set์ ๋ํ labeling ์์ด unsupervised learning๋ก anomaly detection์ ํ์ฉํ ์ ์๋ค ๐ ๊ฐ์ธ์ ์ผ๋ก GP Regression์ ์ค์ ์์๋ ๊ต์ฅํ ์ฑ๋ฅ๊ณผ ๊ทธ๋ด๋ฏํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ์ด์ ๊ฝค ๋ง์กฑํ๋ค ๐ ์ํคํผ๋์์์๋ GP Regression์ โkrigingโ์ด๋ผ๊ณ ๋ถ๋ฅด๋๋ฐ, ๋ฌธ์๋ฅผ ์ฝ์ด๋ณด๋ GP Regression์ ๋ํ ๋ ๊น๊ณ ๋ง์ ๋ด์ฉ์ ๋ค๋ฃจ๊ณ ์๋ค. GP Regression์ด ๋ ๊ถ๊ธํ๋ค๋ฉด ํด๋น ๋ฌธ์๋ฅผ ์ฝ์ด๋ณด์! ๐
๋ค์ ์๋ฆฌ์ฆ๋ก๋ MCMC(Markov Chain Monte Carlo)๋ฅผ ์๊ฐํ๊ณ ์๋ค. ๋ํ์์ โ์ธ๊ณต์ง๋ฅโ ๊ณผ๋ชฉ ๋ค์ ๋ ๋ณด๊ธด ํ๋๋ฐ ๊ทธ๋๋ ์ ๋๋ก ์ดํด๋ฅผ ๋ชป ํ์๋ค ๐ฅ
references
- Gaussian processes - Chuong B. Do
- โ์์ฐโ๋์ ํฌ์คํธ
- An Intuitive Tutorial to Gaussian Processes Regression
-
Bayesian Linear Regression์์๋ prior distribution์ ์ฌ์ฉํ๋๋ฐ, ๊ทธ๋๋ parameter $\theta$์ ๋ํ <parameter prior> ์๋ค! ๊ทธ๋ฌ๋ Bayesian Regression๊ณผ ๋ฌ๋ฆฌ GP Regression์ parameter $\theta$๋ฅผ ์ฌ์ฉํ์ง ์๋ non-parameteric ๋ชจ๋ธ์ด๋ค!! ์ด์ ๋ํด์ ๋ท ๋ฌธ๋จ์์ ๋์ ๋น๊ตํ๋ฉฐ ํ๋ฒ ๋ ์ดํด๋ณด๊ฒ ๋ค ๐ย ↩