Feature Selection Techniques
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
์ฐ๋ฆฌ๋ Feature์ ์ฐจ์์ด ๋์ด๋จ์ ๋ฐ๋ผ <Curse of Dimensionality>๋ผ๋ ๋ฌธ์ ๋ฅผ ๊ฐ๊ฒ ๋๋ค. ์ด๋ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ๋ง์ ๊ธฐ๋ฒ๋ค์ด ์ ์๋์๊ณ , ์ด๋ฒ ํฌ์คํธ์์๋ ๊ทธ ๊ธฐ๋ฒ ์ค ์ ์ฒด feature์์ ๋ช๊ฐ๋ฅผ ์ ํํด ์ฌ์ฉํ๋ <Feature Selection>์ ๊ธฐ๋ฒ๋ค์ ๋ํด ์๊ฐํ ์์ ์ด๋ค ๐
Best Subset Selection
For given $k \le p$, choose $k$ input variables. This makes $\binom{n}{k}$ number of models. Find a model with which the residual mean square error is minimized among all models having $k$ input variables. Denote the model as $M_k$.
Select the optimal model among $M_0, M_1, \dots, M_p$. For $M_p$, this means we use all the input variables.
๐ฅ ์ด๋, ์ด๋ค ๋ชจ๋ธ์ด ์ข์์ง๋ Trainin Err๊ฐ ์๋๋ผ Test Err๋ฅผ ๋ด์ผ ํ๋ค!
Prostate cancer dataset
<Best subset Selection>์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, ๋ ์ ์ feature๋ฅผ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ weight๋ ๋น์ทํ๊ฒ ๋์๊ณ , ๋ ์์ธก ์ฑ๋ฅ ์ญ์ ์ ์ฒด feature๋ฅผ ์ฐ๋ ๊ฒ๊ณผ ๋น์ทํ ์์ค์ผ๋ก ๋์๋ค.
๋น์ฐํ๊ฒ๋ ๋ ์ ์ feature๋ฅผ ์ผ์ผ๋ ๊ณ์ฐ ์ธก๋ฉด์์๋ ์ด๋! ๐
However, if $p$ is large, say $\ge 40$, it becomes computationally infeasible.
\[\binom{p}{k} = O(p^k)\]์ด๋ฐ ๊ณ์ฐ์์ ์ด์ ๋๋ฌธ์ <Best Subset Selection> ๋์ <Forward & Backward Selection> ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค.
Forward Stepwise Selection
Start with the model $M_0$ containing the intercept only.
Construct a sequence of models $M_1, \dots, M_p$ by sequentially adding the predictor that most improves the fit .
Choose the best model among $M_0, \dots, M_p$.
์ฆ, input variable์ ํ๋ ์ถ๊ฐํ ๋, Test Err๊ฐ ๊ฐ์ฅ ํฌ๊ฒ ๋ฎ์์ง๋ ๋ ์์ ํ๋ ๋ฃ๊ฒ ๋ค๋ ๋ง์ด๋ค!
Backward Stepwise Selection
Start with the full model $M_p$.
Construct a sequence of models $M_{p-1}, \dots, M_0$ by sequentially deleting the predictor that has the least impact on the fit.
Choose the best model among $M_p, \dots, M_0$.
์ฆ, input variable์ ํ๋ ์ ๊ฑฐํ ๋, Test Err๊ฐ ์ ์ผ ์ ๊ฒ ๋์ค๋ ๋ ์์ ๋บ๋ค๋ ๋ง์ด๋ค!
Mallowโs $C_p$
<Mallowโs $C_p$> ์ดํ $C_p$๋ ์ด๋ค ํต๊ณ ๋ชจ๋ธ $M$๋ฅผ ํ๊ฐํ๋ ์งํ ์ค ํ๋๋ค.
\[C_p (M) = \frac{1}{n} \cdot \left( \sum^n_{i=1} (y_i - \hat{y})^2 + 2d \hat{\sigma}^2 \right)\]์ฆ, $C_p$๋ Test Err์ ํจ๊ป ๋ชจ๋ธ ํผ์ฒ ์ $d$๋ฅผ ๊ณ ๋ คํ๋ค๋ ๋ง์ด๋ค!
๊ทธ๋์ ๋ชจ๋ธ์ ์ ํํ ๋, $C_p$๊ฐ ๊ฐ์ฅ ๋ฎ์ ๋ชจ๋ธ์ ์ ํํ๋ฉด ๋๋ค.
AIC & BIC
<AIC; Akaike Information Criterion>๊ณผ <BIC; Bayesian Information Criterion>์ ์ข๋ generalํ model selection ์งํ์ด๋ค.
<AIC> & <BIC>๋ <MLE> ๊ธฐ๋ฒ๊ณผ๋ ๊ด๋ จ๋์ด ์๋ค.
\[\text{AIC}(M) = - \frac{2}{n} \cdot \text{loglik} + \frac{2d}{n}\]์ด๋, $\text{loglik}$๋ โlog-likelihoodโ์ ์ฝ์๋ก,<AIC>๊ฐ MLE์ ์ํด ์ต๋ํ๋ โlog-likelihoodโ ํ ์ ๋ณ์์ ๊ฐฏ์ $d$์ ๋ฐ๋ฅธ ํจ๋ํฐ๋ฅผ ์ถ๊ฐํ ์งํ๋ฅผ ํ์ธํ ์ ์๋ค.
ํผ์ฒ๋ฅผ ๋ง์ด ์ฐ๋ ๋ชจ๋ธ์ด๋ผ๋ฉด($d$๊ฐ ํฐ) RSS๋ ์์์ง๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ AIC์ BIC๋ ํผ์ฒ ์ $d$๋ฅผ ํฌํจํ๊ธฐ ๋๋ฌธ์ AIC/BIC๊ฐ ๊ฐ์ฅ ์์ ๋ชจ๋ธ์ ์ด๋ค๋ ๊ฒ์ ์ฐ๋(likelihood)๋ฅผ ๊ฐ์ฅ ํฌ๊ฒ ํ๋(explainable) ๋์์ ํผ์ฒ ๊ฐฏ์๋ ๊ฐ์ฅ ์ ์(parsimonious) ์ต์ ์ ๋ชจ๋ธ์ ์ด๋ค๋ ์๋ฏธ์ด๋ค.
\[\text{BIC}(M) = - \frac{2}{n} \cdot \text{loglik} + \frac{d \cdot \log(n)}{n}\]<AIC>์ ๊ฒฝ์ฐ <Mallowโs $C_p$>์ ๋์น๋ผ๊ณ ํ๋ฉฐ, <BIC>๊ฐ <AIC>๋ณด๋ค ๋ ์ฌํํ ๋ชจ๋ธ์ ์ ํธํ๋ค๊ณ ํ๋ค.
Instability of Variable Selection
โVariable selection methods are known to be unstable.โ
- Breiman, L. (1996)
โUnstableโ means that small change of data results in large change of the estimator.
This is because variable selection uses hard decision rule (hard survivie or die rule).
<Variable Selection>์ โinstabilityโ ๋ฌธ์ ์ ๋ํ ๋์์ผ๋ก ๋ค์ ํฌ์คํธ์์ ์๊ฐํ <Shrinkage method>๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
๐ Shrinkage Method