2021-1ํ•™๊ธฐ, ๋Œ€ํ•™์—์„œ โ€˜๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹โ€™ ์ˆ˜์—…์„ ๋“ฃ๊ณ  ๊ณต๋ถ€ํ•œ ๋ฐ”๋ฅผ ์ •๋ฆฌํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค. ์ง€์ ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค :)

6 minute read

2021-1ํ•™๊ธฐ, ๋Œ€ํ•™์—์„œ โ€˜๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹โ€™ ์ˆ˜์—…์„ ๋“ฃ๊ณ  ๊ณต๋ถ€ํ•œ ๋ฐ”๋ฅผ ์ •๋ฆฌํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค. ์ง€์ ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค :)


Density Estimation์ด๋ž€?

์ด๋ฒˆ์— ์‚ดํŽด๋ณผ <Density Estimation>์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ probaiblity density function, pdf๋ฅผ ๋ณต์›ํ•˜๋Š” ์ž‘์—…์ด๋‹ค. ํ™•๋ฅ ๋ก ์— ์ต์ˆ™ํ•˜๋‹ค๋ฉด, <Point Estimation>, <Internal Estimation> ๋“ฑ์˜ ์ถ”์ฒญ(Estimation) ๊ธฐ๋ฒ•์„ ๋“ค์–ด๋ดค์„ ๊ฒƒ์ด๋‹ค. <Density Estimation>์€ pdf๋ฅผ ์ถ”์ •ํ•˜๋Š” ์ž‘์—…์œผ๋กœ ๋‹ค๋ฅธ Estimation ์ฒ˜๋Ÿผ Confidence Interval๋„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค.

<Density Estimation>(์ดํ•˜ DE)์€ ์™œ ํ•„์š”ํ• ๊นŒ? DE์˜ ๋ชฉ์ ์ธ pdf๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด์„œ์ด๋‹ค. pdf๋ฅผ ์•ˆ๋‹ค๋ฉด ์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ์„ฑ์งˆ์„ ๊ฐ€์กŒ๋Š”์ง€ ์ถ”์ธกํ•˜๊ธฐ ์‰ฌ์›Œ์ง„๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ •๊ทœ ๋ถ„ํฌ์™€ ๊ฐ™์€ bell shape์ธ์ง€, ๋ฐ˜๋Œ€๋กœ ์–‘๊ทน๋‹จ์— ๋ชฐ๋ ค์žˆ๋Š”์ง€, ์•„๋‹ˆ๋ฉด ์ดˆ๋ฐ˜์— ๋ชฐ๋ ค์žˆ๋Š” skewed ํ˜•ํƒœ์ธ์ง€๋ฅผ ์•ˆ๋‹ค๋ฉด ์–ด๋–ค ๋ชจ๋ธ์„ ์“ฐ๊ณ , ์–ด๋–ป๊ฒŒ ๋ฐ์ดํ„ฐ ์ •๊ทœํ™”๋ฅผ ํ•  ๊ฒƒ์ธ์ง€ ๊ฒฐ์ •ํ•˜๋Š”๋ฐ ๋„์›€์ด ๋œ๋‹ค.

DE๋Š” ๋ถ„๋ฅ˜์ƒ Unsupservised Learning๋กœ ๋ถ„๋ฅ˜๋œ๋‹ค. DE๋Š” non-parameteric DE, parameteric DE๋กœ ๋” ๋‚˜๋‰˜์–ด์ง€๋Š”๋ฐ, ์ด๋ฒˆ ํฌ์ŠคํŠธ์—์„  non-parameteric DE๋งŒ ์‚ดํŽด๋ณธ๋‹ค.

Discrete Case: Histogram

๋จผ์ € density estimation์˜ ์ด์‚ฐ์ ์ธ ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณด์ž! ์‚ฌ์‹ค ๊ฐœ๋… ์ž์ฒด๋Š” ๊ฐ„๋‹จํ•œ๋ฐ, ๋ฐ์ดํ„ฐ ๋ฒ”์œ„๋ฅผ ๋ช‡๊ฐœ์˜ ์˜์—ญ(bin)์œผ๋กœ ์ชผ๊ฐœ์„œ ํ•ด๋‹น ์˜์—ญ์— ์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๋ฅผ ์„ธ์–ด์ฃผ๊ธฐ๋งŒ ํ•˜๋ฉด ๋œ๋‹ค. ์ผ์ข…์˜ ํžˆ์Šคํ† ๊ทธ๋žจ(histogram)์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค!

์ˆ˜์‹๋„ ์ง๊ด€์ ์ด๋‹ค.

we observe $X_1, โ€ฆ, X_n$, and $\Delta_i$ is bin width.

\[p_i = \frac{n_i}{N \times \Delta_i} = \frac{\text{# of observations}}{\text{# of samples} \times \text{bin width}}\]

Histogram์€ non-parametric DE์— ์†ํ•œ๋‹ค. ์ •ํ™•ํžˆ ๋งํ•˜์ž๋ฉด, probability mass function์„ ๊ตฌํ•œ ๊ฒƒ์ด๊ธด ํ•œ๋ฐโ€ฆ ์•„๋ฌดํŠผ DE ์ค‘ ํ•˜๋‚˜๋กœ์„œ ์†Œ๊ฐœ๋œ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ Discreteํ•œ ๊ฒฝ์šฐ์— ์ ํ•ฉํ•œ ์ ‘๊ทผ์ด๋‹ค.

์œ„์˜ ์‚ฌ์ง„์„ ๋ณด๋ฉด, $\Delta$ ๊ฐ’์ด ์ปค์งˆ ์ˆ˜๋ก global trend๋ฅผ ๋ฐ˜์˜ํ•˜๊ณ , ๊ฐ’์ด ์ž‘์„ ์ˆ˜๋ก local trend๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ๊ฑธ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Kernel Density Estimation

Histogram์ด ์ด์‚ฐ์ ์ธ ๊ฒฝ์šฐ๋ผ๋ฉด, KDE๋Š” ์—ฐ์†์ ์ธ ๋ฐ์ดํ„ฐ์— ์ ํ•ฉํ•œ DE ๋ฐฉ์‹์ด๋‹ค. Histogram์—์„  $p_i$๋ฅผ ๊ตฌํ–ˆ๋‹ค๋ฉด, KDE์—์„  $p(x) (x \in \mathbb{R})$๋ฅผ ๊ตฌํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ํ˜„์‹ค์—์„œ ์šฐ๋ฆฌ๊ฐ€ ์ฐพ๊ณ ์ž ํ•˜๋Š” $x \in \mathbb{R}$์— ์ •ํ™•ํ•˜ ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•˜๋Š” ์ผ์€ ๊ฑฐ์˜ ์—†๋‹ค. ๊ทธ๋ž˜์„œ $x$์˜ ์ฃผ๋ณ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด $p(x)$๋ฅผ ์ถ”์ •ํ•ด์•ผ ํ•œ๋‹ค. ์–ด๋Š ์ •๋„์˜ ๋ฐ์ดํ„ฐ๋ฅผ โ€œ์ฃผ๋ณ€(neighborhood)โ€๋กœ ์—ฌ๊ธธ ๊ฒƒ์ธ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ kernel function $k(u)$์ด๋‹ค.

kernel function: parzen window

\[k(u) = \begin{cases} 1 & \left| u \right| \le 1/2 \\ 0 & \text{otherwise} \end{cases}\]

where $u$ is distance between $x$ and other data point.

์œ„์˜ ์ปค๋„ ํ•จ์ˆ˜๋Š” ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ๋กœ ์ฃผ๋ณ€ $1/2$ ๊ฑฐ๋ฆฌ์˜ ์ ๋“ค์„ โ€œneighborhoodโ€๋กœ ์—ฌ๊ธฐ๊ฒ ๋‹ค๋Š” ๋ง์ด๋‹ค. ๊ทธ๋ž˜์„œ $x$ ์ฃผ๋ณ€์— ๋ช‡๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ๊ณ„์‚ฐํ•ด๋ณด๋ฉด,

\[K(x) = \sum^N_{i=1} k(x - x_i)\]

๊ทธ๋Ÿฐ๋ฐ, neighbor๋ฅผ ์ฃผ๋ณ€ $1/2$ ๋ฒ”์œ„๋กœ ๊ณ ์ •ํ•˜๋Š” ๊ฑด ๋ณ„๋กœ ์œ ์—ฐํ•˜์ง€ ์•Š๋‹ค. ๊ทธ๋ž˜์„œ ์œ ์—ฐ์„ฑ์„ ์œ„ํ•ด size $h$๋ฅผ ๋„์ž…ํ•œ๋‹ค.

\[K(x; h) = \sum^N_{i=1} k \left(\frac{x - x_i}{h} \right)\]

size $h$๋Š” Histogram์—์„œ์˜ bin $\Delta_i$์™€ ๊ฐ™์€ ์—ญํ• ์ด๋‹ค. ์ขŒ์šฐ $1/2 \Delta_i$ ๋งŒํผ์„ neighbor๋กœ ์‚ผ๋Š”๋‹ค๋Š”๊ฒŒ ์–ด๋–ป๊ฒŒ ์œ„์™€ ๊ฐ™์€ ํ˜•ํƒœ๊ฐ€ ๋˜๋Š”์ง€ ์•„๋ž˜์˜ ๊ณผ์ •์„ ๋”ฐ๋ผ๊ฐ€๋ณด์ž.

\[\begin{aligned} \left| u \right| &\le 1 / 2 \Delta_i \\ \left| u / \Delta_i \right| &\le 1 / 2 \\ \left| (x - x_i) / \Delta_i \right| &\le 1 / 2 \\ \end{aligned}\]

๊ทธ๋ž˜์„œ neighbor ๋ฒ”์œ„๋ฅผ ๋” ๋„“๊ฒŒ/์ข๊ฒŒ ์žก๊ณ  ์‹ถ๋‹ค๋ฉด, $h$์˜ ๊ฐ’์„ ์กฐ์ •ํ•˜๋ฉด ๋œ๋‹ค.

์•„์ง $x$์˜ size $h$์— ์žˆ๋Š” neighbor์˜ ์ˆซ์ž $K(x; h)$๋งŒ ๊ตฌํ–ˆ๋‹ค. ํ™•๋ฅ  $p(x)$๋Š” ๊ธฐ์กด histogram์˜ ํ™•๋ฅ  $p_i$์™€ ๋น„์Šทํ•˜๊ฒŒ ์œ ๋„ํ•˜๋ฉด ๋œ๋‹ค.

\[\begin{aligned} p_i &= \frac{n_i}{N \Delta_i} \\ p(x) &= \frac{K(x; h)}{N h} \end{aligned}\]

์–ด๋–ค๊ฐ€? KDE ๋„ˆ๋ฌด ์‰ฝ์ง€ ์•Š์€๊ฐ€? :)

Histogram๊ณผ KDE๋ฅผ ํ†ตํ•ด ๊ตฌํ•œ pmf, pdf๋ฅผ ๋น„๊ตํ•œ ๊ทธ๋ฆผ์ด๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ $h$ ๊ฐ’์ด ์ปค์งˆ ์ˆ˜๋ก global trend, ์ž‘์„์ˆ˜๋ก local trend๋ฅผ ๋ฐ˜์˜ํ•œ๋‹ค. KDE์—์„  ๋ฒ”์œ„๊ฐ€ ๋” ์ ์€ ๋ฒ”์œ„๋ฅผ ์“ฐ๊ธฐ์— $h=0.005$์—์„œ 0์ธ ๊ฐ’์ด ๊ฝค ๋œ๋‹ค.

$\Delta$, $h$๋Š” hyper parameter์ด๊ธฐ ๋•Œ๋ฌธ์— ์–ด๋–ค ๊ฐ’์„ ์จ์•ผ ํ•˜๋Š”์ง€๋Š” Domain Knowledge์˜ ๊ฐœ์ž…์ด ํ•„์š”ํ•˜๋‹ค.

2์ฐจ์› ์ด์ƒ์—์„œ KDE

๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ 1์ฐจ์›์ด ์•„๋‹Œ 2์ฐจ์› ์ด์ƒ์˜ $d$-dimensional data์ธ ๊ฒฝ์šฐ๋„ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿด ๋•Œ๋Š” $h^d$์˜ cube ๋ฒ”์œ„ ๋‚ด์˜ neighbor๋ฅผ ๊ตฌํ•˜๋ฉด ๋œ๋‹ค.

\[k(u) = \begin{cases} 1 & \left| u_i \right| \le 1/2 \quad (i = 1, ..., d) \\ 0 & \text{otherwise} \end{cases}\] \[p(x) = \frac{K(x; h)}{N h^d}\]

๋งบ์Œ๋ง

์˜ˆ์ „์— ์ปดํ“จํ„ฐ ๋น„์ „ ์ˆ˜์—…์„ ๋“ค์„ ๋•Œ, <Sequential Density Estimation>์ด๋ž€ ๊ฑธ ๋ฐฐ์› ์—ˆ๋‹ค. ๊ทธ๋•Œ๋Š” ํ™•๋ฅ ๋ก ์„ ์ „ํ˜€ ๋ชจ๋ฅด๊ณ , <Density Estimation>๋„ ์ „ํ˜€ ๋ชจ๋ฅด๋Š” ์ƒํƒœ์—์„œ ๋“ค์–ด์„œ ๊ทธ ์˜๋ฏธ๋ฅผ ๋ชจ๋ฅด๊ณ  ๋ฌด์ž‘์ • ์ˆ˜์‹์„ ์™ธ์› ๋˜ ๊ธฐ์–ต์ด ์žˆ๋‹ค. ๋‚˜์ค‘์— ํ•ด๋‹น ๋‚ด์šฉ์„ ๋‹ค์‹œ ์‚ดํŽด๋ด์•ผ ํ•  ๊ฒƒ ๊ฐ™๋‹ค.

๐Ÿ‘€ Sequential Density Estimation