Distribution over functions & Gaussian Process
โMachine Learningโ์ ๊ณต๋ถํ๋ฉด์ ๊ฐ์ธ์ ์ธ ์ฉ๋๋ก ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
๋ณธ ๊ธ์ ์ฝ๊ธฐ ์ ์ โRandom Processโ์ ๋ํ ๊ธ์ ๋จผ์ ์ฝ๊ณ ์ฌ ๊ฒ์ ๊ถํฉ๋๋ค ๐
๊ธฐํ ์๋ฆฌ์ฆ: Gaussian Process Regression
Introduction to Gaussian Process
๋จผ์ <Gaussian distribution>์ ๋ณต์ตํด๋ณด์.
1. 1D Gaussian Distribution
\[f(x) = \frac{1}{\sqrt{2\pi} \sigma} \exp \left( - \frac{(x-\mu)^2}{2\sigma^2}\right)\]2. 2D Gaussian Distribution
\[f(\mathbf{x}) = \frac{1}{2\pi \left| \Sigma \right|^{1/2}} \exp \left( - \frac{1}{2} (\mathbf{x} - \mu)^T \Sigma^{-1} (\mathbf{x} - \mu) \right)\]3. Multi-variate Gaussian Distribution
Distribution over random vectors!
\[f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} \left| \Sigma \right|^{1/2}} \exp \left( - \frac{1}{2} (\mathbf{x} - \mu)^T \Sigma^{-1} (\mathbf{x} - \mu) \right)\]์ด์ <Gaussian Process>์ ์ ์๋ฅผ ์ดํด๋ณด์.
Definition. Gaussian Process
A sequence of Gaussian distributions! <Gaussian Process> is a generlization of multi-variate Gaussian distribution. It is a distribution over random functions!
\[\mathcal{GP} (m(x), k(x, x'))\]์์ ์ ์๋ง ๋ด์๋ <Gaussian Process>๊ฐ ๋ญ์ง ์ ์ดํด๊ฐ ์ ๋๋ค ๐ฅ ๋จผ์ โdistribution over random functionsโ๋ผ๋ ํํ๋ถํฐ ์ดํดํด๋ณด์. <random function>์ด๋ผ๋ ๋ฏ์ ๊ฐ๋ ์ด ๋ฑ์ฅํ๋๋ฐ <random variable>๊ณผ๋ ๋ค๋ฅธ ๊ฒ์ผ๊น?
Definition. random function
Let $\mathcal{H}$ be a class of functions mapping $\mathcal{X} \rightarrow \mathcal{Y}$. A random function $h(\cdot)$ from $\mathcal{H}$ is a function which is randomly drawn from $\mathcal{H}$, according to some probability distribution over $\mathcal{H}$.
Once a random function $h(\cdot)$ is selected from $\mathcal{H}$ probabilistically, it implies a deterministic mapping from inputs in $\mathcal{X}$ to outputs in $\mathcal{Y}$.
์์์ ์ ์ํ <random function>์ ๋จ์ํ random number๋ฅผ ์ถ๋ ฅํ๋ ํจ์๊ฐ ์๋๋ค! ๐
Probability distribution over functions with finite domains
๋จผ์ ํ๋ฅ ๋ถํฌ๊ฐ ์ด๋ป๊ฒ ํจ์ ์์์ ์ ์๋๋์ง ์๊ธฐ ์ํด $\mathcal{X}$๊ฐ finite set์ธ ๊ฐ๋จํ ์ํฉ๋ถํฐ ์ดํด๋ณด์.
Let $\mathcal{X} = \{x_1, \dots, x_m\}$ be any finite set of elements. Now consider the set $\mathcal{H}$ of all possible functions mapping from $\mathcal{X}$ to $\mathbb{R}$.
Since the domain of any $h(\cdot) \in \mathcal{H}$ has only finite $m$ elts, we can represent $h(\cdot)$ as an $m$-dimensional vector, $\vec{h} = [h(x_1), \dots, h(x_m)]^T$.
In order to specify a probability distribution over functions $h(\cdot)$, we must associate some โprobability densityโ with each function in $\mathcal{H}$. Note that weโve represent function $h(\cdot)$ as a vector $\vec{h}$. Then we can give a prob. distribution like gaussian as follows
\[\vec{h} \sim \mathcal{N} \left( \vec{\mu}, \; \sigma^2 I \right)\]Boom! this implies a prob. distribution over functions $h(\cdot)$, whose probability density function is given by
\[p(h) = \prod^m_{i=1} \frac{1}{\sqrt{2\pi} \sigma} \exp \left( - \frac{1}{2\sigma^2} (h(x_i) - \mu_i)^2 \right)\]์์ finite domain์ ์์๋ฅผ ํตํด ์ฐ๋ฆฌ๋ prob. distribution over functions with finite domains๊ฐ finite-dimensional multi-variate Gaussian์ผ๋ก ํํ๋จ์ ์ ์ ์๋ค! ๐ฒ ์ฌ๊ธฐ์ function domain $\mathcal{X}$๋ฅผ infinite dimension์ผ๋ก ํ์ฅํ๋ฉด, ์ฐ๋ฆฌ๋ <Gaussian Process>๋ฅผ ์ป๊ฒ ๋๋ค! ๐ช
Probability distribution over functions with infinite domains
์ด๋ฒ์๋ $\mathcal{X}$์์ ์ถ์ถํ collection์ ์ด์ฉํด random variable์ ์งํฉ $\{ h(x) : x \in \mathcal{X}\}_m$๋ฅผ ์ ์ํด๋ณด์. $h(\cdot)$๊ฐ probabilistic ํ๊ฒ ๊ฒฐ์ ๋๋ random function์ด๊ธฐ ๋๋ฌธ์ $h(x)$๋ random variable ์ด๋ค. ๐ ์ด๋ domain set $\mathcal{X}$์ ๋ํด ๋ณ๋๋ก ํน์ ํ์ง๋ ์์๋ค. ์ด์ ๊ณผ ๊ฐ์ finite domain์ ์๊ฐํด๋ ์ข๊ณ , $\mathbb{R}$์ ๊ฐ์ infinite dimension์ ์๊ฐํด๋ ์ข๋ค.
์ฐ๋ฆฌ๋ finite collection of random variable $\{ h(x) : x \in \mathcal{X}\}_m$๋ก multi-variate Gaussian distribution์ ์ ์ํ ์ ์๋ค. ์ด๋, $\mathcal{X}$๋ฅผ domain์ผ๋ก ๊ฐ๋ $m(x)$์ $k(x, xโ)$๋ mean function, covariance function์ ์๋์ ๊ฐ์ด ์ ์ํ ์ ์์ ๊ฒ์ด๋ค.
\[\begin{aligned} m(x) &= E \left[h(x)\right] \\ k(x, x') &= E \left[ (h(x) - m(x)) (h(x') - m(x'))\right] \end{aligned}\]๋ฐ๋ผ์ collection of random variable $\{ h(x) : x \in \mathcal{X}\}_m$ ์์์์ multi-variate Gaussian distribution์ ์๋์ ๊ฐ๋ค.
\[\vec{h}_m = \begin{bmatrix} h(x_1) \\ \vdots \\ h(x_m) \end{bmatrix} \sim \mathcal{N} \left( \begin{bmatrix} m(x_1) \\ \vdots \\ m(x_m) \end{bmatrix} ,\; \begin{bmatrix} k(x_1, x_1) & \dots & k(x_1, x_m) \\ \vdots & \ddots & \vdots \\ k(x_m, x_1) & \dots & k(x_m, x_m) \end{bmatrix} \right)\]<Gaussian Process>์ ์ ์๋ฅผ ๋ค์ ๋ ์ฌ๋ ค๋ณด์.
โA Gaussian process is a stochastic process s.t. any finite subcollection of random variables has a multivariate Gaussian distribution.โ
Boom! ์ฐ๋ฆฌ๊ฐ ์์์ ์ ์ํ domain $\mathcal{X}$์์ ์ถ์ถํ collection of random variable $\{ h(x) : x \in \mathcal{X}\}_m$๋ก ์ ์ ํ multi-variate Gaussian distribution์ ๋ง๋๋ ๊ณผ์ ์ ์ฌ์ค <Gaussian Process>์ ์ ์๋ฅผ ์ฌํํ๋ ๊ฒ์ด์๋ค! finite collection์์ ์ ๋ํ ์์ ํํ์ ์ผ๋ฐํํ๋ฉด <Gaussian Process>๋ฅผ ์๋์ ๊ฐ์ด ์ ์ ์ ์๋ค.
\[h(\cdot) \sim \mathcal{GP} (m(\cdot), \; k(\cdot, \cdot))\]finite domain์์ $h(x)$๋ฅผ finite random vector๋ก ์ดํดํ ๊ฒ์ฒ๋ผ, infinite domain์์์ $h(x)$๋ infinite random vector๋ก ์ดํดํ ์ ์๋ค! ๐
mean & convariance function for GP
์ด์ GP๊ฐ distribution over random function์ด๋ผ๋ ์ , ๊ทธ๋ฆฌ๊ณ distribution over infinite random vector๋ผ๋ ๊ฒ์ ์ดํดํ๋ค. ์ฐ๋ฆฌ์ ๋ค์ ๊ด์ฌ์ฌ๋ GP๋ฅผ an function $m(x)$๊ณผ covariance function $k(x, xโ)$์ด๋ค ๐ ์ฌ์ค ์์ ๋ฌธ๋จ์์ $m(x)$์ $k(x, xโ)$์ ์ ์๋ฅผ ์ ๊ธด ํ๋ค๋ง, $h(\cdot)$๊ฐ random function์ด๊ธฐ ๋๋ฌธ์ ์์ ์ ์๋ฅผ ๊ฐ์ง๊ณ ๋ $m(x)$, $k(x, xโ)$๊ฐ ์ ํํ ์ด๋ค ํจ์์ธ์ง ๊ฐ์ ์ก์ ์ ์์์ ๊ฒ์ด๋ค.
์ผ๋ฐ์ ์ผ๋ก mean function $m(x)$๋ ์ด๋ค real-valued function๋ ๊ฐ๋ฅํ๋ค. ๊ทธ๋ฌ๋ covariance function $k(x, xโ)$๋ GP๋ฅผ marginalization ํ์ ๋ ์ ๋๋๋ Covariance Matrix๊ฐ semi-positive definite ๊ฐ์ covariance์ ์ฑ์ง๋ค์ ๋ง์กฑํด์ผ ํ๋ค.
For covariance function $k(x, xโ)$ and for any set of elts $x_1, \dots, x_m \in \mathcal{X}$, the resulting covariance matrix must be satisfy the properties of covariance matrix.
\[K = \begin{bmatrix} k(x_1, x_1) & \dots & k(x_1, x_m) \\ \vdots & \ddots & \vdots \\ k(x_m, x_1) & \dots & k(x_m, x_m) \end{bmatrix}\]For example, all $k(x, xโ) \ge 0$ and $K$ is a non-negative definite matrix.
์์ ์กฐ๊ฑด์ ๋ณด๋ฉด ์ ํจํ $k(x, xโ)$๋ฅผ ์ฐพ๋ ๊ฒ์ ๊น๋ง๋ํด ๋ณด์ธ๋ค ๐ฅ ๊ทธ.๋ฌ.๋. Chuong B. Do์ ์ํฐํด์ ๋ฐ๋ฅด๋ฉด valid convariance function์ ๋ํ ์กฐ๊ฑด์ด ๊ณง <Mercerโs theorem; ๋จธ์์ ์ ๋ฆฌ>์์ ์๊ตฌํ๋ kernel์ ์กฐ๊ฑด๊ณผ ๋์ผํ๋ค๊ณ ๋งํ๋ค! ๐ฒ ๊ทธ๋์ <Mercerโs theorem>์ด ๋ณด์ฅํ๋ valid kernel function $k(x, xโ)$๋ฅผ ์ฌ์ฉํ๋ฉด convariance์ ์ฑ์ง์ ๊ณ ๋ฏผํ์ง ์๊ณ ๋ convariance function $k(x, xโ)$๋ฅผ ์ ์ํ ์ ์๋ค!! ๐คฉ ์์ผ๋ก๋ convariance function ๋์ โkernel functionโ์ด๋ผ๋ ํํ์ ์ฌ์ฉํ ๊ฒ์ด๋ค.
zero-mean GP
์ด์ GP์ ์นํด์ง๊ธฐ ์ํด mean function $m(x) = 0$์ธ zero-mean Gaussian process๋ผ๋ ๊ฐ๋จํ ์์๋ฅผ ์ดํด๋ณด์.
\[h(\cdot) \sim \mathcal{GP}(0, \; k(\cdot, \cdot))\]์ด๋, function $h$๋ $h: \mathbb{R} \rightarrow \mathbb{R}$์ ํจ์์ด๋ค. ๊ทธ๋ฆฌ๊ณ kernel function $k(\cdot, \cdot)$์ <squared exponential kernel function>3์ ์ฌ์ฉํ๋ค.
\[k_{SE}(x, x') = \exp \left( - \frac{1}{2\tau^2} (x - x')^2 \right) \quad (\tau > 0)\]์ด๋, ์์ ๊ฐ์ GP์์ sampleํ function $h(x)$๋ ์ด๋ป๊ฒ ์๊ฒผ์๊น? ๋จผ์ ํจ์๊ฐ์ ํ๊ท ์ด 0์ด๊ธฐ ๋๋ฌธ์ ํจ์๊ฐ์ด 0 ์ฃผ๋ณ์ ๋ถํฌํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ ์ ์๋ค. ๋, $x, xโ \in \mathcal{X}$์ธ ๋ ์์์ ๋ํ ํจ์๊ฐ์
- $x$์ $xโ$๊ฐ ๊ฐ๊น๋ค(nearby)๋ฉด, $k_{SE}(x, xโ) \approx 1$์ด ๋๋ฏ๋ก $h(x)$์ $h(xโ)$๋ high covariance๋ฅผ ๊ฐ์ง๋ค.
- ๋ฐ๋๋ก $x$์ $xโ$๊ฐ ๋ฉ๋ค(far apart)๋ฉด, $k_{SE}(x, xโ) \approx 0$์ด ๋๋ฏ๋ก $h(x)$์ $h(xโ)$๋ low covariance๋ฅผ ๊ฐ์ง๋ค.
์ด๋ฐ ์์ด๋์ด๋ฅผ ๋ฐํ์ผ๋ก ์ค์ ๋ก ์ํ๋ง ํด๋ณด๋ฉด ์๋์ ๊ฐ๋ค๊ณ ํ๋ค.
์! ์ฌ๊ธฐ๊น์ง <Gaussian Process>์ ๋ํด ์ดํด๋ณด์๋ค. distribution over random vector์ ๊ฐ๋ ์ ํ์ฅํ distribution over random function ๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฒ์ infinite dimension๊น์ง ํ์ฅํ Gaussian Process๊น์ง!! ์ด๋ฒ ํฌ์คํธ์์ ๋ค๋ฃฌ ๋ด์ฉ์ด ๊ฒฐ์ฝ ์ฝ์ง๋ ์์ง๋ง, ๊ณต๋ถํ ๊ฐ์น๋ ์ถฉ๋ถํ ์ฃผ์ ์๋ค ๐ช
๋ค์ ํฌ์คํธ์์ GP๋ฅผ ์ด์ฉํด Regression model์ ๋ง๋๋ <Gaussian Process Regression>์ ๋ํด ์ดํด๋ณธ๋ค!!
๐ Gaussian Process Regression
references
-
์ด์ ์ <Bernoulli Process>์ ๊ฒฝ์ฐ, ๊ฐ trial์์ ๋ชจ๋ ๋์ผํ <Bernoulli distribution>์ ๊ฐ์ ํ๋๋ฐ, <Gaussian Process>์ ๊ฒฝ์ฐ $x$ ๊ฐ์ ๋ฐ๋ผ ๋ค๋ฅธ ํ๊ท /๋ถ์ฐ์ ๊ฐ์ง Gaussian distribution์ผ๋ก ์ด๋ค์ง ์ ์์์ ์ฃผ๋ชฉํ์!ย ↩
-
๋ณดํต <Gaussian Process>์ ์ ํํ ์ ์๋ ์ด ๋ฌธ์ฅ์ผ๋ก ํํํ๋ค. โA Gaussian process is a stochastic process s.t. any finite subcollection of random variables has a multivariate Gaussian distribution.โย ↩
-
์ฌ์ค SE kernel์ gaussian kernel์ ํ ์ข ๋ฅ์ด๋ค. ๋ค๋ง, ์ฌ๊ธฐ์๋ Gaussian Process์ ์ด๋ฆ์ด ๊ฒน์ณ์ squared-exponential๋ผ๋ ์ด๋ฆ์ ์ฐ๊ฒ ๋์๋ค.ย ↩