Overview of Supervised Learning - 1
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
Set-up
- Input Variables: $X = (X_1, \dots, X_p)^T$
- a.k.a. Covariates, features, $p$-dim random vector, independent variables
- Output Variables: $Y$
- a.k.a. Responses, $y$-values random variable, dependent variables
- Data: $\{(y_1, x_1), \dots, (y_n, x_n)\}$
- Realization of $(X, Y)$ (often regarded as i.i.d. independent and identically distributed)
Variable types
- Qauntitive Variables
- Continuous variables
- Qualitive Variables
- Discrete variables or Categorical Variables
- Ordinal Variables
- ex: small < medium < large
- Two Supervised Learnings Tasks
- Regression
- Output $Y$ is continuous
- Often, modeled as $Y = f(X) + \epsilon$
- Goal: construct good model $f$ with low $\epsilon$
- Classification
- Output $Y$ is categorical
- Often, we model $P(Y=k \mid X)$ (= ํ๋ฅ ์ถ์ )
- Goal: construct good model to determine output value with given $X$.s
- Regression
<Supervised Learning>์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์๋์ ๋ ๊ฐ์ง ์ ๊ทผ์ ์ทจํ๋ค.
- Least Squared Estimator
- Nearest Neighbor
์ด ๋ ์ ๊ทผ๋ฒ์ <Supervised Learning> ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ด ๋๋ค.
Regression
Definition. Linear Model for regression
Given input $X = (X_1, \dots, X_p)^T$, we predict $Y$ as
\[\hat{Y} = \hat{\beta_0} + \sum^{p}_{i=1} {\hat{\beta_i} X_i}\]- ์ผ๋ฐ์ ์ผ๋ก hat($\hat{x}$)์ด ์์ผ๋ฉด, predicted value๋ก ์ทจ๊ธํ๋ค.
- $\beta_i$๋ โregression coefficientโ๋ผ๊ณ ํ๋ค. ํนํ, $\beta_0$๋ฅผ <intercept> ๋๋ <bias>๋ผ๊ณ ํ๋ค.
- ํธ์๋ฅผ ์ํด $X_0=1$๋ผ๊ณ ์ค์ ํ ์๋ ์๋ค.
- ์ด ๊ฒฝ์ฐ, ์์ $\hat{Y} = X^T \hat{\beta}$๊ฐ ๋๋ค.
Least Squared Estimator
๊ทธ๋ด๋ฏํ $\hat{\beta}$๋ฅผ ์ถ์ ํ๊ธฐ ์ํด โresidual sum of squaresโ๋ฅผ ์ต์ํํ๋ LSE์ ์ ๊ทผ์ ์ทจํ ์ ์๋ค.
\[\begin{aligned} \mbox{RSS}(\beta) &= \sum^n_{i=1} (y_i - {x_i}^T \beta)^2 \\ &= (\mathbf{y} - \mathbf{X}\beta)^T(\mathbf{y} - \mathbf{X}\beta) \end{aligned}\]์ ์์์ $\mathbf{y}$, $\mathbf{X}$๋ ๊ฐ๊ฐ ์๋์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค.
- $\mathbf{y}$๋ ์ ๋ต ๋ ์ด๋ธ์ ๋ชจ์ vector๋ก <response vector>๋ผ๊ณ ํ๋ค.
- $\mathbf{X}$๋ ์ ๋ ฅ๋๋ feature vector๋ฅผ ๋ชจ์ matrix๋ก <design matrix>๋ผ๊ณ ํ๋ค.
<design matrix>๋ฅผ ๋ค๋ฅด๊ฒ ํํํ๋ฉด ์๋์ ๊ฐ๋ค.
\[\mathbf{X} = \left( x_1, \dots, x_n \right)^T = \left( \mathbf{x}_1, \dots, \mathbf{x}_p \right)\]์ฒซ๋ฒ์งธ ํ๊ธฐ๋ $p$-dim feature vector $n$๊ฐ๋ฅผ ์ฐจ๊ณก์ฐจ๊ณก ํํํ ๊ฒ์ด๊ณ , ๋๋ฒ์งธ ํ๊ธฐ๋ $n$๊ฐ feature vector์์ feature $x_i$ ํ๋์ ๋ํ ๊ฐ์ ๋ชจ๋ ๋ชจ์ vector $\mathbf{x}_i$๋ก ํํํ๋ค.
LS ์ ๊ทผ์์๋ $\hat{\beta}$๋ฅผ ์๋์ ๊ฐ์ด ์ถ์ ํ๋ค.
\[\begin{aligned} \hat{\beta} &= \underset{\beta \in \mathbb{R}^p}{\text{argmin}} \; \mbox{RSS}(\beta) \\ &= \left( \mathbf{X}^T \mathbf{X}\right)^{-1} \mathbf{X}^T \cdot \mathbf{y} \end{aligned}\]์ด๊ฒ์ $\text{RSS}(\beta)$์ ๋ํ ๋ฏธ๋ถ์ผ๋ก ์ฝ๊ฒ ์ ๋ํ ์ ์๋ค.
์ด์ $\text{RSS}(\beta)$๋ฅผ $\beta$์ ๋ํด ๋ฏธ๋ถํด๋ณด์.
\[\begin{aligned} \frac{\partial}{\partial\beta} \text{RSS}(\beta) &= \frac{\partial}{\partial\beta} \left(Y^T Y - 2 Y^T X \beta + \beta^T X^T X \beta \right) \\ &= 0 - 2 Y^T X + 2 X^T X \beta \end{aligned}\]$\displaystyle \frac{\partial}{\partial\beta} \text{RSS}(\beta) $๊ฐ 0์ด ๋๋ ์ง์ ์์ ๊ทน์๊ฐ์ด ๋ฐ์ํ๋ค. ๋ฐ๋ผ์,
\[\begin{aligned} \frac{\partial}{\partial\beta} \text{RSS}(\beta) &= - 2 Y^T X + 2 X^T X \beta = 0 \\ &\Updownarrow \\ 2 X^TX \beta &= 2 Y^T X \\ &\Updownarrow \\ \hat{\beta} &= \left( X^T X \right)^{-1} Y^T X \end{aligned}\]$\blacksquare$
์์ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌํ $\hat{\beta}$๋ฅผ ๋ฐํ์ผ๋ก Linear Regressor $\hat{f}(x)$๋ฅผ ๊ธฐ์ ํ๋ฉด ์๋์ ๊ฐ๋ค.
\[\hat{f}(x) = x^T \hat{\beta}\]Nearest-Neighbor Methods
<Nearest-Neighbor Method>๋ก Regression ๋ฌธ์ ๋ฅผ ์ ๊ทผํด๋ณผ ์๋ ์๋ค.
Definition. Nearest-Neighbor Methods for regression
Let $N_k(x)$ be the set of points which are the top-$k$ closest to $x$.
\[\hat{f}(x) = \frac{1}{k} \sum_{x_i \in N_k(x)} y_i\]<NN>์ผ๋ก์ ์ ๊ทผ๋ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค. ๊ทธ๋ฌ๋ Estimation์ ๊ฒฝ๊ณ ๋ถ๊ทผ์ ๋ณด๋ฉด, <NN>์ ๊ฒฝ์ฐ Boundary์์ Estimation ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
Classification
<๋ถ๋ฅ Classification> ๋ฌธ์ ์์๋ <Least Squared Method>์ <Nearest Neighbor Method>๋ฅผ ์ ์ฉํด๋ณผ ์ ์๋ค. <๋ถ๋ฅ Classification>์ ๋ํ ์ฃผ์ ๋ ์์ ์ ๋ท๋ถ๋ถ์์ ์์ธํ ๋ค๋ฃจ๊ธฐ ๋๋ฌธ์ ๋ณธ ํฌ์คํธ์์๋ ๊ฐ๋จํ๊ฒ ๋ชจํ๋ง ์ ์ํ๋ค.