Density Estimation
2021-1ํ๊ธฐ, ๋ํ์์ โ๋ฐ์ดํฐ ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
- Density Estimation์ด๋?
- Discrete Case: Histogram
- Kernel Density Estimation (KDE)
- 2์ฐจ์ ์ด์์์์ KDE
Density Estimation์ด๋?
์ด๋ฒ์ ์ดํด๋ณผ <Density Estimation>์ ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ก๋ถํฐ probaiblity density function, pdf๋ฅผ ๋ณต์ํ๋ ์์ ์ด๋ค. ํ๋ฅ ๋ก ์ ์ต์ํ๋ค๋ฉด, <Point Estimation>, <Internal Estimation> ๋ฑ์ ์ถ์ฒญ(Estimation) ๊ธฐ๋ฒ์ ๋ค์ด๋ดค์ ๊ฒ์ด๋ค. <Density Estimation>์ pdf๋ฅผ ์ถ์ ํ๋ ์์ ์ผ๋ก ๋ค๋ฅธ Estimation ์ฒ๋ผ Confidence Interval๋ ๊ตฌํ ์ ์๋ค๊ณ ํ๋ค.
<Density Estimation>(์ดํ DE)์ ์ ํ์ํ ๊น? DE์ ๋ชฉ์ ์ธ pdf๋ฅผ ์ป๊ธฐ ์ํด์์ด๋ค. pdf๋ฅผ ์๋ค๋ฉด ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง ๋ฐ์ดํฐ๊ฐ ์ด๋ค ์ฑ์ง์ ๊ฐ์ก๋์ง ์ถ์ธกํ๊ธฐ ์ฌ์์ง๋ค. ์๋ฅผ ๋ค์ด ์ ๊ท ๋ถํฌ์ ๊ฐ์ bell shape์ธ์ง, ๋ฐ๋๋ก ์๊ทน๋จ์ ๋ชฐ๋ ค์๋์ง, ์๋๋ฉด ์ด๋ฐ์ ๋ชฐ๋ ค์๋ skewed ํํ์ธ์ง๋ฅผ ์๋ค๋ฉด ์ด๋ค ๋ชจ๋ธ์ ์ฐ๊ณ , ์ด๋ป๊ฒ ๋ฐ์ดํฐ ์ ๊ทํ๋ฅผ ํ ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋๋ฐ ๋์์ด ๋๋ค.
DE๋ ๋ถ๋ฅ์ Unsupservised Learning๋ก ๋ถ๋ฅ๋๋ค. DE๋ non-parameteric DE, parameteric DE๋ก ๋ ๋๋์ด์ง๋๋ฐ, ์ด๋ฒ ํฌ์คํธ์์ non-parameteric DE๋ง ์ดํด๋ณธ๋ค.
Discrete Case: Histogram
๋จผ์ density estimation์ ์ด์ฐ์ ์ธ ๋ฐฉ๋ฒ์ ์ดํด๋ณด์! ์ฌ์ค ๊ฐ๋ ์์ฒด๋ ๊ฐ๋จํ๋ฐ, ๋ฐ์ดํฐ ๋ฒ์๋ฅผ ๋ช๊ฐ์ ์์ญ(bin)์ผ๋ก ์ชผ๊ฐ์ ํด๋น ์์ญ์ ์กด์ฌํ๋ ๋ฐ์ดํฐ์ ์๋ฅผ ์ธ์ด์ฃผ๊ธฐ๋ง ํ๋ฉด ๋๋ค. ์ผ์ข ์ ํ์คํ ๊ทธ๋จ(histogram)์ ๋ง๋๋ ๊ฒ์ด๋ค!
์์๋ ์ง๊ด์ ์ด๋ค.
we observe $X_1, โฆ, X_n$, and $\Delta_i$ is bin width.
\[p_i = \frac{n_i}{N \times \Delta_i} = \frac{\text{# of observations}}{\text{# of samples} \times \text{bin width}}\]Histogram์ non-parametric DE์ ์ํ๋ค. ์ ํํ ๋งํ์๋ฉด, probability mass function์ ๊ตฌํ ๊ฒ์ด๊ธด ํ๋ฐโฆ ์๋ฌดํผ DE ์ค ํ๋๋ก์ ์๊ฐ๋๋ค. ๋ฐ์ดํฐ๊ฐ Discreteํ ๊ฒฝ์ฐ์ ์ ํฉํ ์ ๊ทผ์ด๋ค.
์์ ์ฌ์ง์ ๋ณด๋ฉด, $\Delta$ ๊ฐ์ด ์ปค์ง ์๋ก global trend๋ฅผ ๋ฐ์ํ๊ณ , ๊ฐ์ด ์์ ์๋ก local trend๋ฅผ ๋ฐ์ํ๋ ๊ฑธ ๋ณผ ์ ์๋ค.
Kernel Density Estimation
Histogram์ด ์ด์ฐ์ ์ธ ๊ฒฝ์ฐ๋ผ๋ฉด, KDE๋ ์ฐ์์ ์ธ ๋ฐ์ดํฐ์ ์ ํฉํ DE ๋ฐฉ์์ด๋ค. Histogram์์ $p_i$๋ฅผ ๊ตฌํ๋ค๋ฉด, KDE์์ $p(x) (x \in \mathbb{R})$๋ฅผ ๊ตฌํ๋ค.
๊ทธ๋ฌ๋ ํ์ค์์ ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ ํ๋ $x \in \mathbb{R}$์ ์ ํํ ์ด๋ค ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ๋ ์ผ์ ๊ฑฐ์ ์๋ค. ๊ทธ๋์ $x$์ ์ฃผ๋ณ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด $p(x)$๋ฅผ ์ถ์ ํด์ผ ํ๋ค. ์ด๋ ์ ๋์ ๋ฐ์ดํฐ๋ฅผ โ์ฃผ๋ณ(neighborhood)โ๋ก ์ฌ๊ธธ ๊ฒ์ธ์ง๋ฅผ ๊ฒฐ์ ํ๋ ํจ์๊ฐ ๋ฐ๋ก kernel function $k(u)$์ด๋ค.
kernel function: parzen window
\[k(u) = \begin{cases} 1 & \left| u \right| \le 1/2 \\ 0 & \text{otherwise} \end{cases}\]where $u$ is distance between $x$ and other data point.
์์ ์ปค๋ ํจ์๋ ๊ฐ์ฅ ๊ฐ๋จํ ํํ๋ก ์ฃผ๋ณ $1/2$ ๊ฑฐ๋ฆฌ์ ์ ๋ค์ โneighborhoodโ๋ก ์ฌ๊ธฐ๊ฒ ๋ค๋ ๋ง์ด๋ค. ๊ทธ๋์ $x$ ์ฃผ๋ณ์ ๋ช๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์๋์ง๋ฅผ ๊ณ์ฐํด๋ณด๋ฉด,
\[K(x) = \sum^N_{i=1} k(x - x_i)\]๊ทธ๋ฐ๋ฐ, neighbor๋ฅผ ์ฃผ๋ณ $1/2$ ๋ฒ์๋ก ๊ณ ์ ํ๋ ๊ฑด ๋ณ๋ก ์ ์ฐํ์ง ์๋ค. ๊ทธ๋์ ์ ์ฐ์ฑ์ ์ํด size $h$๋ฅผ ๋์ ํ๋ค.
\[K(x; h) = \sum^N_{i=1} k \left(\frac{x - x_i}{h} \right)\]size $h$๋ Histogram์์์ bin $\Delta_i$์ ๊ฐ์ ์ญํ ์ด๋ค. ์ข์ฐ $1/2 \Delta_i$ ๋งํผ์ neighbor๋ก ์ผ๋๋ค๋๊ฒ ์ด๋ป๊ฒ ์์ ๊ฐ์ ํํ๊ฐ ๋๋์ง ์๋์ ๊ณผ์ ์ ๋ฐ๋ผ๊ฐ๋ณด์.
\[\begin{aligned} \left| u \right| &\le 1 / 2 \Delta_i \\ \left| u / \Delta_i \right| &\le 1 / 2 \\ \left| (x - x_i) / \Delta_i \right| &\le 1 / 2 \\ \end{aligned}\]๊ทธ๋์ neighbor ๋ฒ์๋ฅผ ๋ ๋๊ฒ/์ข๊ฒ ์ก๊ณ ์ถ๋ค๋ฉด, $h$์ ๊ฐ์ ์กฐ์ ํ๋ฉด ๋๋ค.
์์ง $x$์ size $h$์ ์๋ neighbor์ ์ซ์ $K(x; h)$๋ง ๊ตฌํ๋ค. ํ๋ฅ $p(x)$๋ ๊ธฐ์กด histogram์ ํ๋ฅ $p_i$์ ๋น์ทํ๊ฒ ์ ๋ํ๋ฉด ๋๋ค.
\[\begin{aligned} p_i &= \frac{n_i}{N \Delta_i} \\ p(x) &= \frac{K(x; h)}{N h} \end{aligned}\]์ด๋ค๊ฐ? KDE ๋๋ฌด ์ฝ์ง ์์๊ฐ? :)
Histogram๊ณผ KDE๋ฅผ ํตํด ๊ตฌํ pmf, pdf๋ฅผ ๋น๊ตํ ๊ทธ๋ฆผ์ด๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก $h$ ๊ฐ์ด ์ปค์ง ์๋ก global trend, ์์์๋ก local trend๋ฅผ ๋ฐ์ํ๋ค. KDE์์ ๋ฒ์๊ฐ ๋ ์ ์ ๋ฒ์๋ฅผ ์ฐ๊ธฐ์ $h=0.005$์์ 0์ธ ๊ฐ์ด ๊ฝค ๋๋ค.
$\Delta$, $h$๋ hyper parameter์ด๊ธฐ ๋๋ฌธ์ ์ด๋ค ๊ฐ์ ์จ์ผ ํ๋์ง๋ Domain Knowledge์ ๊ฐ์ ์ด ํ์ํ๋ค.
2์ฐจ์ ์ด์์์ KDE
๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฐ์ดํฐ๊ฐ 1์ฐจ์์ด ์๋ 2์ฐจ์ ์ด์์ $d$-dimensional data์ธ ๊ฒฝ์ฐ๋ ์์ ๊ฒ์ด๋ค. ๊ทธ๋ด ๋๋ $h^d$์ cube ๋ฒ์ ๋ด์ neighbor๋ฅผ ๊ตฌํ๋ฉด ๋๋ค.
๋งบ์๋ง
์์ ์ ์ปดํจํฐ ๋น์ ์์ ์ ๋ค์ ๋, <Sequential Density Estimation>์ด๋ ๊ฑธ ๋ฐฐ์ ์๋ค. ๊ทธ๋๋ ํ๋ฅ ๋ก ์ ์ ํ ๋ชจ๋ฅด๊ณ , <Density Estimation>๋ ์ ํ ๋ชจ๋ฅด๋ ์ํ์์ ๋ค์ด์ ๊ทธ ์๋ฏธ๋ฅผ ๋ชจ๋ฅด๊ณ ๋ฌด์์ ์์์ ์ธ์ ๋ ๊ธฐ์ต์ด ์๋ค. ๋์ค์ ํด๋น ๋ด์ฉ์ ๋ค์ ์ดํด๋ด์ผ ํ ๊ฒ ๊ฐ๋ค.