Feature Selection Techniques
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
์ฐ๋ฆฌ๋ Feature์ ์ฐจ์์ด ๋์ด๋จ์ ๋ฐ๋ผ <Curse of Dimensionality>๋ผ๋ ๋ฌธ์ ๋ฅผ ๊ฐ๊ฒ ๋๋ค. ์ด๋ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ๋ง์ ๊ธฐ๋ฒ๋ค์ด ์ ์๋์๊ณ , ์ด๋ฒ ํฌ์คํธ์์๋ ๊ทธ ๊ธฐ๋ฒ ์ค ์ ์ฒด feature์์ ๋ช๊ฐ๋ฅผ ์ ํํด ์ฌ์ฉํ๋ <Feature Selection>์ ๊ธฐ๋ฒ๋ค์ ๋ํด ์๊ฐํ ์์ ์ด๋ค ๐
Best Subset SelectionPermalink
For given
Select the optimal model among
๐ฅ ์ด๋, ์ด๋ค ๋ชจ๋ธ์ด ์ข์์ง๋ Trainin Err๊ฐ ์๋๋ผ Test Err๋ฅผ ๋ด์ผ ํ๋ค!


Prostate cancer dataset
<Best subset Selection>์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, ๋ ์ ์ feature๋ฅผ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ weight๋ ๋น์ทํ๊ฒ ๋์๊ณ , ๋ ์์ธก ์ฑ๋ฅ ์ญ์ ์ ์ฒด feature๋ฅผ ์ฐ๋ ๊ฒ๊ณผ ๋น์ทํ ์์ค์ผ๋ก ๋์๋ค.
๋น์ฐํ๊ฒ๋ ๋ ์ ์ feature๋ฅผ ์ผ์ผ๋ ๊ณ์ฐ ์ธก๋ฉด์์๋ ์ด๋! ๐
However, if
์ด๋ฐ ๊ณ์ฐ์์ ์ด์ ๋๋ฌธ์ <Best Subset Selection> ๋์ <Forward & Backward Selection> ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค.
Forward Stepwise SelectionPermalink
Start with the model
Construct a sequence of models
Choose the best model among
์ฆ, input variable์ ํ๋ ์ถ๊ฐํ ๋, Test Err๊ฐ ๊ฐ์ฅ ํฌ๊ฒ ๋ฎ์์ง๋ ๋ ์์ ํ๋ ๋ฃ๊ฒ ๋ค๋ ๋ง์ด๋ค!
Backward Stepwise SelectionPermalink
Start with the full model
Construct a sequence of models
Choose the best model among
์ฆ, input variable์ ํ๋ ์ ๊ฑฐํ ๋, Test Err๊ฐ ์ ์ผ ์ ๊ฒ ๋์ค๋ ๋ ์์ ๋บ๋ค๋ ๋ง์ด๋ค!
Mallowโs Permalink
<Mallowโs
์ฆ,
๊ทธ๋์ ๋ชจ๋ธ์ ์ ํํ ๋,
AIC & BICPermalink
<AIC; Akaike Information Criterion>๊ณผ <BIC; Bayesian Information Criterion>์ ์ข๋ generalํ model selection ์งํ์ด๋ค.
<AIC> & <BIC>๋ <MLE> ๊ธฐ๋ฒ๊ณผ๋ ๊ด๋ จ๋์ด ์๋ค.
์ด๋,
ํผ์ฒ๋ฅผ ๋ง์ด ์ฐ๋ ๋ชจ๋ธ์ด๋ผ๋ฉด(
<AIC>์ ๊ฒฝ์ฐ <Mallowโs
Instability of Variable SelectionPermalink
โVariable selection methods are known to be unstable.โ
- Breiman, L. (1996)
โUnstableโ means that small change of data results in large change of the estimator.
This is because variable selection uses hard decision rule (hard survivie or die rule).
<Variable Selection>์ โinstabilityโ ๋ฌธ์ ์ ๋ํ ๋์์ผ๋ก ๋ค์ ํฌ์คํธ์์ ์๊ฐํ <Shrinkage method>๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
๐ Shrinkage Method