Linear Regression - 1-1
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
Goal.
Regression์ ๋ชฉํ๋ ์๋์ ๊ฐ์ <regression function>์ ์ถ์ ํ๋ ๊ฒ์ ์๋ค.
\[f(x) = E[Y \mid X = x]\]์์ ๊ด๊ณ์์ ์๋์ ์๊ณผ ๋์น๋ค. ์ฆ, ์์ ํจ์ $f(x)$๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ ์๋์ $f(x)$๋ฅผ ์ ์ฐพ์ผ๋ฉด <regression>์ ๋ชฉํ๋ฅผ ์ฑ์ทจํ ๊ฒ์ผ๋ก ๋ณธ๋ค.
\[Y = f(x) + \epsilon, \quad E[\epsilon \mid X] = 0\]<linear regression>์ ๋ฌ์ฑํ๊ณ ์ถ๋ค๋ฉด, <regression function> $f(x)$๋ฅผ ์ฐพ๊ธฐ ์ํด $X$, $Y$์ ๊ด๊ณ์์ ์๋์ ๊ฐ์ด ๋ชจ๋ธ๋งํ๋ค.
\[\hat{Y} = \hat{\beta_0} + \sum^p_{j=1} \hat{\beta}_j X_j\]ํ๊ธฐ์ ํธ์๋ฅผ ์ํด <intercept> ๋๋ <bias> ํ ์ ํฌํจํด ์๋์ ๊ฐ์ด ๊ธฐ์ ํ๊ธฐ๋ก ํ๋ค.
\[\hat{Y} = \sum^p_{j=0} \hat{\beta}_j X_j = X^T \hat{\beta}\]Least Squared Estimator
<Linear regression>์ ํด๋ฅผ ๊ตฌํ๊ธฐ ์ํด RSS๋ฅผ ์ฌ์ฉํด ์ ๊ทผํ ์ ์๋ค.
\[\begin{aligned} \text{RSS}(\beta) &= \sum^n_{i=1} \left( y_i - x_i^T \beta\right)^2 \\ &= (\mathbf{y} - \mathbf{X}\beta)^T (\mathbf{y} - \mathbf{X}\beta) \end{aligned}\]where $\mathbf{y} = (y_1, \dots, y_n)^T$ (response vector) and $\mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_p)$ (design matrix)
RSS์ ๋ํ ์์ $\beta$์ ๋ํด ๋ฏธ๋ถํ๋ฉด solution์ ๊ตฌํ ์ ์๋ค. ์ ๋ง ๋ฏธ๋ถ๋ง ์ ํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ์ค์ ์ ๋ ๊ณผ์ ์ ์ฌ๊ธฐ์๋ ์๋ตํ๋ค.
\[\hat{\beta} = \underset{\beta \in \mathbb{R}^p}{\text{argmin}} \; \text{RSS}(\beta) = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}\]์ด๊ฒ์ ์์์ ์ธ๊ธํ $\hat{Y} = X^T \hat{\beta}$์ ๋์ ํด์ฃผ๋ฉด ์๋์ ๊ฐ๋ค.
\[\hat{Y} = X^T \hat{\beta} = \mathbf{X}^T (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} = \left( \mathbf{X}^T (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \mathbf{y} = \mathbf{H} \mathbf{y}\]์ด๋์ $\mathbf{H}$๋ฅผ <hat matrix>๋ผ๊ณ ๋ถ๋ฅธ๋ค.
Design Matrix
<design matrix> $\mathbf{X}$์๋ ๋ ๊ฐ์ง ํ์ ์ด ์๋ค.
(1) <Random Design>: $x_i$โs are regarded as i.i.d. realization
(2) <Fixed Design>: $x_i$โs are fixed (non-random)
๋ ๊ฐ๋ ์ด <regression estimation>์๋ ํฐ ์ฐจ์ด๊ฐ ์๋ค๊ณ ํ๋ค. ์ฐ๋ฆฌ๋ ์์ผ๋ก๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์ $\mathbf{X}$๋ฅผ <fixed design>์ผ๋ก ์ทจ๊ธํ ๊ฒ์ด๋ค.
์์์ RSS ๋ฐฉ์์ ์ฌ์ฉํด $\hat{\beta}$๋ฅผ ๊ตฌํ๋ค. ์ด๋, ์ด ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ข์์ง๋ฅผ ๋
ผํ๊ธฐ ์ํด <prediction error>๋ฅผ ๊ตฌํด์ผ ํ๋ค. ์ด๋ ํ์ํ ๊ฐ๋
์ด <bias>์ <variance>์ด๋ค. ์ด ๋ ๊ฐ๋
์ ๋ฌด์์ธ์ง๋ ๋ณ๋์ ํฌ์คํธ์ ์ ๋ฆฌํด๋์๋ค. ๋ง์ฝ bias๋ ์๊ณ variance๋ ์๋ค๋ฉด, ์ฐ๋ฆฌ๋ ๊ทธ ๋ชจ๋ธ์ด ์ข๋ค๊ณ ํ๊ฐํ๋ค.
๐ bias & variance
$Y = X^T \beta + \epsilon$๋ผ๊ณ ๊ฐ์ ํ์.
๋ง์ฝ, $\text{Var}(Y) = \text{Var}(\epsilon) = \sigma^2$๋ผ๋ฉด,
\[\begin{aligned} \text{Var}(\hat{\beta}) &= \text{Var}\left( (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} \right) \\ &= \left((\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \text{Var}(\mathbf{y}) \left((\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right)^T \quad (\because \text{Var}(A\mathbf{x}) = A \text{Var}(\mathbf{x})A^T) \\ &= (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \cdot \text{Var}(\mathbf{y}) \cdot X (X^TX)^{-1} \\ &= (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \cdot \textcolor{red}{\sigma^2 I_n} \cdot X (X^TX)^{-1} \\ &= \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T X (X^TX)^{-1} \\ &= \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1} \end{aligned}\]์์ ์์์ $X^TX$๋ฅผ <gram matrix>๋ผ๊ณ ํ๋ค.
์ด๋ฒ์๋ bias๋ฅผ ์ดํด๋ณด์. $\hat{\beta}$์ ํ๊ท ์ธ $E[\hat{\beta}]$๋ฅผ ๊ตฌํด๋ณด์.
๋ง์ฝ, $E[Y] = X^T \beta$๋ผ๋ฉด,
\[\begin{aligned} E[\hat{\beta}] &= E\left[ (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \mathbf{y} \right] = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T E [\mathbf{y}] \\ &= (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T (X \beta) = \beta \end{aligned}\]$E[\mathbf{y}]$ ์ ๋
$\mathbf{y} = (y_1, \dots, y_n)^T$์ ๋ํด $E[\mathbf{y}]$๋
\[E[\mathbf{y}] = \begin{pmatrix} E[y_1] \\ \vdots \\ E[y_n] \end{pmatrix} = \begin{pmatrix} x_1^T \beta \\ \vdots \\ x_n^T \beta \end{pmatrix} = \mathbf{X} \beta\]$E[\hat{\beta}] = \beta$์ด๊ธฐ ๋๋ฌธ์ unbiased estimator๋ผ๊ณ ํ ์ ์๋ค. ์ด๊ฒ์ ์๋ฏธ๋ ์ด estimator์ ์ฑ๋ฅ์ด ํ๊ท ์ ์ธ ๊ด์ ์์๋ ์ ๋ง ์ ์ถ์ ํ๋ค๋ ๋ง์ด๋ค.
์ข ํฉํ๋ฉด, LS estimator๋ bias์ ๊ฒฝ์ฐ unbiased์๋ค. ํ์ง๋ง, variance์ ๊ฒฝ์ฐ ํ๋ ฌ์ ํํ๋ก ๋์๋ค. ์ ์ฒด์ ๊ด์ ์์ ๋ดค์ ๋, LS estimator๋ ๋ถ์ฐ์ด ํฐ ํธ์ด๊ธฐ ๋๋ฌธ์ ์์ฃผ ์ข์ estimator๋ ์๋๋ผ๊ณ ํ๋ค.
์ด๋ฒ์๋ estimator์์ ์ค์ฐจ์ ๋ํ variance์ธ $\sigma^2$๋ ์ถ์ ํด๋ณด์.
\[\hat{\sigma} = \frac{1}{n} \sum^n_{i=1} (y_i - \hat{y_i})^2 = \frac{1}{n} \sum^n_{i=1} (y_i - x_i \hat{\beta})^2\]๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์์ $n$์ด ์๋๋ผ $n-p$๋ก ๋๋๋๋ก ํ๋ค.
\[\hat{\sigma} = \frac{1}{n-p} \sum^n_{i=1} (y_i - x_i \hat{\beta})^2 = \frac{1}{n-p} \| \mathbf{y} - \hat{\mathbf{y}} \|\]์ด๋, $(n-p)$๋ <์์ ๋>๋ฅผ ์๋ฏธํ๋๋ฐ, ์ด ๋ถ๋ถ์ ์์งํ ์์ง ์ ๋ชจ๋ฅด๋ ๋ถ๋ถ์ด๋ผ ์์ธํ ์ค๋ช ์ ์๋ตํ๋ค.
์ผ๋จ ๋ง์ฝ ์ ๋ ๊ฒ $\sigma^2$๋ฅผ ์ถ์ ํ๋ค๋ฉด, ์ด๊ฒ์ด unbiased estimaor ์์ ์ ๋ํ ์ ์๋ค๊ณ ํ๋ค.
\[E[\hat{\sigma^2}] = \sigma^2\]