Overview of Supervised Learning - 2
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
The Curse of Dimentionality
(์ค๋น์ค)
Bias-Variance Decomposition
์์ ์ดํด๋ณธ NN ๊ธฐ๋ฒ์์ ์ด๋ค $k$ ๊ฐ์ ์ ํํ๋์ง์ ๋ฐ๋ผ Test Error์ ๊ฐ์ด ๋ฌ๋ผ์ก๋ค. ๋ณธ ํํธ์์๋ $k$๋ฅผ ์ด๋ป๊ฒ ์ ํํด์ผ ํ๋์ง์ ๋ํด <bias>, <variancce> ๊ฐ๋ ์ ํตํด ์ค๋ช ํ๋ค.
๋จผ์ ์ฐ๋ฆฌ๋ $k$ ๊ฐ์ ๋ฐ๋ฅธ prediction error $\text{EPE}(\hat{f}_k)$๋ฅผ ์๋์ ๊ฐ์ด ๊ธฐ์ ํ ์ ์๋ค.
\[\text{EPE}(\hat{f}_k) = E_{X, Y} \left[Y - \hat{f}(X)\right]^2\]where $\hat{f}_k$ is the $k$-NN estimator.
$\text{EPE}$๋ฅผ ์ค์ด๊ธฐ ์ํ ๊ธฐ์ค์ผ๋ก training error๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
\[\sum^n_{i=1} \left(y_i - \hat{f}(x_i) \right)^2\]์ผ๋ฐ์ ์ผ๋ก complexity๊ฐ ๋์ผ ์๋ก Test Error๋ ๊ฐ์ํ๋ค. ํ์ง๋ง, complexity๊ฐ ์ผ์ ์์ค์ ์ด์์ผ๋ก ๋์์ง๋ค๋ฉด, Test Error๋ ๋ค์ ์ฆ๊ฐํ๊ธฐ ์์ํ๋ค: NN ๊ธฐ๋ฒ์์๋ $k$๊ฐ ์์์ง์๋ก complexity๊ฐ ์ฆ๊ฐํ๋ค. ์ด๊ฒ์ ๋ชจ๋ ๋ชจ๋ธ์์ ์ผ๋ฐ์ ์ผ๋ก ๋ฐ๊ฒฌ๋๋ ํ์์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฐ ํ์์ <bias-variance decomposition>์ด๋ผ๋ ์ด๋ก ์ผ๋ก ์ค๋ช ๊ฐ๋ฅํ๋ค!
Property. Bias-Variance trade-off (for regression)
์๋์ ๊ฐ์ regression ๋ฌธ์ ๋ฅผ ์์ ํด๋ณด์.
\[Y = f(X) + \epsilon, \quad \text{where } E(\epsilon) = 0, \quad \text{Var}(\epsilon) = \sigma^2\]๊ทธ๋ฆฌ๊ณ $f$๋ฅผ ์ถ์ ํ estimator๋ฅผ $\hat{f}$๋ผ๊ณ ํด๋ณด์. ๊ทธ๋ฌ๋ฉด, $x_0$๋ผ๋ ์๋ก์ด sample point์ ๋ํด $\hat{f}$๋ $\text{Err}(x_0)$์ Test Error๋ฅผ ๊ฐ๋๋ค.
\[\begin{aligned} \text{Err}(x_0) \overset{\text{def}}{=} E\left[ (Y - \hat{f}(X))^2 \mid X = x_0 \right] \end{aligned}\]์ด $\text{Err}(x_0)$์ ๋ํ ์์ ์์ ์ ์ ๊ฐํ๋ฉด ์๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป๋๋ค.
\[\begin{aligned} \text{Err}(x_0) &= E\left[ (Y - \hat{f}(X))^2 \mid X = x_0 \right] \\ &= E \left[ \left( Y - \textcolor{red}{f(X) + f(X) - E[\hat{f}(X)] + E[\hat{f}(X)]} - \hat{f}(X)\right)^2 \mid X = x_0 \right] \\ &= E \left[ (Y - f(X))^2 + (f(X) - E[\hat{f}(X)])^2 + (E[\hat{f}(X)] - \hat{f}(X))^2 + \textcolor{red}{\cancel{2 \cdots}} \mid X = x_0 \right] \end{aligned}\]๋ง์ง๋ง ์ค์ $\textcolor{red}{\cancel{2 \cdots}}$ ๋ถ๋ถ์ ์ ์ ๊ฐํด๋ณด๋ฉด ๋ชจ๋ 0์ด ๋๋ค. ์ด๊ฒ์ ์๋์ ํผ์ณ๋ณด๊ธฐ ํตํด ํ์ธํ ์ ์๋ค.
ํผ์ณ๋ณด๊ธฐ
1. $E\left[ (Y - f(X)) \cdot (f(X) - E [\hat{f}(X)]) \mid X = x_0 \right]$
์์ ์์์ $(Y-f(X))$์ $(f(x) - E [\hat{f}(X)])$ ์๋ก ๋ ๋ฆฝ์ด๋ค. ๋ฐ๋ผ์ $(Y-f(X))$์ ๋ํ ํ ์ ๋ถ๋ฆฌํ ์ ์๋ค. ์ด๋, $(Y-f(X))$์ ๋ํด ํ๊ท ์ ์ทจํ๋ฉด, ๊ทธ ๊ฐ์ 0์ด๋ค. ๋ฐ๋ผ์ ์ฒซ๋ฒ์งธ ํ ์ ๊ฐ์ 0์ด๋ค.
2. $E\left[ (Y - f(X)) \cdot (E [\hat{f}(X)] - \hat{f}(X)) \mid X = x_0 \right]$
1๋ฒ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ ๋ฆฝ์ ์ํด $(Y-f(X))$์ ๋ถ๋ฆฌํ ์ ์๊ณ , ํ๊ท ์ ์ทจํ๋ฉด 0์ด ๋์ด์ ๋๋ฒ์งธ ํ ์ ๊ฐ์ 0์ด๋ค.
3. $E\left[ (f(X) - E [\hat{f}(X)]) \cdot (E [\hat{f}(X)] - \hat{f}(X)) \mid X = x_0 \right]$
์์ ์์ ์ ๊ฐํ๋ฉด ์๋์ ๊ฐ๋ค. ์ด๋, $E[\hat{f}(X)]$๊ฐ ์์์์ ๊ธฐ์ตํ๋ผ.
\[\begin{aligned} & E\left[ (f(X) - \mu_{\hat{f}(X)}) \cdot (\mu_{\hat{f}(X)} - \hat{f}(X)) \mid X = x_0 \right] \\ &= E\left[ f(X) \mu_{\hat{f}(X)} - \left(\mu_{\hat{f}(X)}\right)^2 - f(X) \hat{f}(X) + \mu_{\hat{f}(X)} \hat{f}(X) \mid X = x_0 \right] \\ &= \mu_{\hat{f}(X)} E[f(X)] - \left(\mu_{\hat{f}(X)}\right)^2 - E[f(X)\hat{f}(X)] + \mu_{\hat{f}(X)} E[\hat{f}(X)] \\ &= \cancel{\left( \mu_{\hat{f}(X)} E[f(X)] - E[f(X)\hat{f}(X)] \right)} + \cancel{\left( - \left(\mu_{\hat{f}(X)}\right)^2 + \mu_{\hat{f}(X)} E[\hat{f}(X)]\right)} = 0 \end{aligned}\]์์ ์์ ๊ฐ๊ฐ์ ํ ๋ค์ ํ์ธํด๋ณด์.
1. $E[(Y - f(X))^2]$
์ฒซ๋ฒ์งธ๋ก $E[(Y - f(X))^2]$ํ ์ $Y = f(X) + \epsilon$์ ๊ด๊ณ์์ ์ด์ฉํ๋ฉด, $E[\epsilon^2]$์ ๊ตฌํ๋ ๊ฒ๊ณผ ๊ฐ๋ค. ์ด๋, $E(\epsilon) = 0$, $\text{Var}(\epsilon) = \sigma^2$์ด๋ฏ๋ก
\[E[\epsilon^2] = \sigma^2\]2. $E[((f(X) - E[\hat{f}(X)])^2]$
์ด $E[((f(X) - E[\hat{f}(X)])^2]$ํ ์ ์ฐ๋ฆฌ๋ <bias>๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ง์ฝ ์ถ์ ํ estimaor $\hat{f}(x_0)$์ ๋ํด ๊ทธ๊ฒ์ ํ๊ท ์ธ $E[\hat{f}(x_0)]$์ ๊ฐ์ด $f(x_0)$์ ๊ฐ๋ค๋ฉด, ์ฆ
\[f(x_0) = E[\hat{f}(x_0)]\]๋ผ๋ฉด, ์ฐ๋ฆฌ๋ estimator $\hat{f}$๋ฅผ unbaised ๋์๋ค๊ณ ๋งํ๋ค. ์ข๋ ๊ฐ๋จํ ๋งํ๋ฉด, ์ค์ ๊ฐ๊ณผ ํ๊ท ๊ฐ์ ์ฐจ์ด๋ฅผ <bias>๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. ๋ฐ๋ผ์ ๋๋ฒ์งธ ํ ์
\[E \left[ \left(f(x_0) - E[\hat{f}(x_0)] \right)^2 \right] = \left\{ \text{Bias}(\hat{f}(x_0)) \right\}^2\]3. $E[(E[\hat{f}(X)] - \hat{f}(X))^2]$
์ด๊ฒ์ ๋น๊ต์ ์ต์ํ๋ค. ๋ฐ๋ก $\hat{f}(x_0)$์ <variance>์ ๋ํ ์์ผ๋ก ์ธ๋ฒ์งธ ํ ์ ๊ณง
\[E \left[ \left( E[\hat{f}(x_0)] - \hat{f}(x_0) \right)^2 \right] = \text{Var}(\hat{f}(x_0))\]์ด๊ฒ์ ์ข ํฉํ๋ฉด ์๋์ ๊ฐ๋ค.
\[\begin{aligned} \text{Err}(x_0) &= E \left[ (Y - f(X))^2 + (f(X) - E[\hat{f}(X)])^2 + (E[\hat{f}(X)] - \hat{f}(X))^2 + \textcolor{red}{\cancel{2 \cdots}} \mid X = x_0 \right] \\ &= \sigma^2 + \left\{ \text{Bias}(\hat{f}(x_0)) \right\}^2 + \text{Var}(\hat{f}(x_0)) \end{aligned}\]์์ ์์์ $\sigma^2$์ ์๋ฃ๋ก๋ถํฐ ์ค๋ uncertainty์ด๋ค. ๊ทธ๋์ ์๋ฃ๋ฅผ ์๋ฌด๋ฆฌ ๋ง์ด ์ค๋นํ๋ค๊ณ ํ๋๋ผ๊ณ ์ด $\sigma^2$์ ๊ฐ์ ์ค์ผ ์๋, ์ปจํธ๋กค ํ ์๋ ์๋ค.
๊ทธ๋ฌ๋ Bias ํ ๊ณผ Variance ํ ์ ๋ชจ๋ธ๋ง ํ๋ ์ฌ๋์ ์ํด ์ปจํธ๋กค ํ ์ ์๋ค. ์ด๊ฒ์ complexity๋ฅผ ์ด์ฉํด ์ปจํธ๋กคํ๋๋ฐ, ์ผ๋ฐ์ ์ธ ๊ฒฝํฅ์ ๋ฐ๋ฅด๋ฉด complexity๊ฐ ํฌ๋ฉด ํด์๋ก Bias๋ ์ค์ด๋ค๊ณ , Variance๋ฅผ ์ปค์ง๋ค๊ณ ํ๋ค.
NN์์์ ๊ฒฝ์ฐ๋ฅผ ๋ ์ฌ๋ ค๋ณด์. $k$๊ฐ ์ปค์ง๋ฉด ์ปค์ง์๋ก ๋ชจ๋ธ์ local neighbor๋ฅผ ๋ณด๋ ๊ฒ์ด ์๋๋ผ global neighbor, ์ฆ global mean์ ๋ฐ๋ฅด๊ฒ ๋๋ค. ์ด๊ฒ์ sample point์์ ๊ต์ฅํ ๋ฉ๋ฆฌ์๋ ๋ ์๋ค๊น์ง ๊ฐ์ ธ์์ ๋ณธ๋ค๋ ๋ง์ด๋ฏ๋ก, ๊ณง Bais๊ฐ ์ฆ๊ฐํจ์ ์๋ฏธํ๋ค. ๊ทธ๋ฌ๋ ๊ต์ฅํ ๋ฉ๋ฆฌ ์๋ ๋ ์๋ค๋ ์ดํด๋ณด๊ธฐ ๋๋ฌธ์ Variance๋ ์ค์ด๋ค ๊ฒ์ด๋ค.
์ด model complexity์ ๋ฐ๋ฅธ Bias-Variance์ ๊ฒฝํฅ์ statistical model ์ ๋ฐ์ ๋ฐํ๋๋ ์ผ๋ฐ์ ์ธ ํ์์ด๋ค!