Linear Regression - 1-1
2021-1νκΈ°, λνμμ βν΅κ³μ λ°μ΄ν°λ§μ΄λβ μμ μ λ£κ³ 곡λΆν λ°λ₯Ό μ 리ν κΈμ λλ€. μ§μ μ μΈμ λ νμμ λλ€ :)
Goal.
Regressionμ λͺ©νλ μλμ κ°μ <regression function>μ μΆμ νλ κ²μ μλ€.
\[f(x) = E[Y \mid X = x]\]μμ κ΄κ³μμ μλμ μκ³Ό λμΉλ€. μ¦, μμ ν¨μ $f(x)$λ₯Ό μ°Ύλ κ²μ΄λ μλμ $f(x)$λ₯Ό μ μ°ΎμΌλ©΄ <regression>μ λͺ©νλ₯Ό μ±μ·¨ν κ²μΌλ‘ λ³Έλ€.
\[Y = f(x) + \epsilon, \quad E[\epsilon \mid X] = 0\]<linear regression>μ λ¬μ±νκ³ μΆλ€λ©΄, <regression function> $f(x)$λ₯Ό μ°ΎκΈ° μν΄ $X$, $Y$μ κ΄κ³μμ μλμ κ°μ΄ λͺ¨λΈλ§νλ€.
\[\hat{Y} = \hat{\beta_0} + \sum^p_{j=1} \hat{\beta}_j X_j\]νκΈ°μ νΈμλ₯Ό μν΄ <intercept> λλ <bias> ν μ ν¬ν¨ν΄ μλμ κ°μ΄ κΈ°μ νκΈ°λ‘ νλ€.
\[\hat{Y} = \sum^p_{j=0} \hat{\beta}_j X_j = X^T \hat{\beta}\]Least Squared Estimator
<Linear regression>μ ν΄λ₯Ό ꡬνκΈ° μν΄ RSSλ₯Ό μ¬μ©ν΄ μ κ·Όν μ μλ€.
\[\begin{aligned} \text{RSS}(\beta) &= \sum^n_{i=1} \left( y_i - x_i^T \beta\right)^2 \\ &= (\mathbf{y} - \mathbf{X}\beta)^T (\mathbf{y} - \mathbf{X}\beta) \end{aligned}\]where $\mathbf{y} = (y_1, \dots, y_n)^T$ (response vector) and $\mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_p)$ (design matrix)
RSSμ λν μμ $\beta$μ λν΄ λ―ΈλΆνλ©΄ solutionμ ꡬν μ μλ€. μ λ§ λ―ΈλΆλ§ μ νλ©΄ λκΈ° λλ¬Έμ μ€μ μ λ κ³Όμ μ μ¬κΈ°μλ μλ΅νλ€.
\[\hat{\beta} = \underset{\beta \in \mathbb{R}^p}{\text{argmin}} \; \text{RSS}(\beta) = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}\]μ΄κ²μ μμμ μΈκΈν $\hat{Y} = X^T \hat{\beta}$μ λμ ν΄μ£Όλ©΄ μλμ κ°λ€.
\[\hat{Y} = X^T \hat{\beta} = \mathbf{X}^T (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} = \left( \mathbf{X}^T (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \mathbf{y} = \mathbf{H} \mathbf{y}\]μ΄λμ $\mathbf{H}$λ₯Ό <hat matrix>λΌκ³ λΆλ₯Έλ€.
Design Matrix
<design matrix> $\mathbf{X}$μλ λ κ°μ§ νμ μ΄ μλ€.
(1) <Random Design>: $x_i$βs are regarded as i.i.d. realization
(2) <Fixed Design>: $x_i$βs are fixed (non-random)
λ κ°λ μ΄ <regression estimation>μλ ν° μ°¨μ΄κ° μλ€κ³ νλ€. μ°λ¦¬λ μμΌλ‘λ λλΆλΆμ κ²½μ°μμ $\mathbf{X}$λ₯Ό <fixed design>μΌλ‘ μ·¨κΈν κ²μ΄λ€.
μμμ RSS λ°©μμ μ¬μ©ν΄ $\hat{\beta}$λ₯Ό ꡬνλ€. μ΄λ, μ΄ λͺ¨λΈμ΄ μΌλ§λ μ’μμ§λ₯Ό λ
ΌνκΈ° μν΄ <prediction error>λ₯Ό ꡬν΄μΌ νλ€. μ΄λ νμν κ°λ
μ΄ <bias>μ <variance>μ΄λ€. μ΄ λ κ°λ
μ 무μμΈμ§λ λ³λμ ν¬μ€νΈμ μ 리ν΄λμλ€. λ§μ½ biasλ μκ³ varianceλ μλ€λ©΄, μ°λ¦¬λ κ·Έ λͺ¨λΈμ΄ μ’λ€κ³ νκ°νλ€.
π bias & variance
$Y = X^T \beta + \epsilon$λΌκ³ κ°μ νμ.
λ§μ½, $\text{Var}(Y) = \text{Var}(\epsilon) = \sigma^2$λΌλ©΄,
\[\begin{aligned} \text{Var}(\hat{\beta}) &= \text{Var}\left( (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} \right) \\ &= \left((\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \text{Var}(\mathbf{y}) \left((\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right)^T \quad (\because \text{Var}(A\mathbf{x}) = A \text{Var}(\mathbf{x})A^T) \\ &= (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \cdot \text{Var}(\mathbf{y}) \cdot X (X^TX)^{-1} \\ &= (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \cdot \textcolor{red}{\sigma^2 I_n} \cdot X (X^TX)^{-1} \\ &= \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T X (X^TX)^{-1} \\ &= \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1} \end{aligned}\]μμ μμμ $X^TX$λ₯Ό <gram matrix>λΌκ³ νλ€.
μ΄λ²μλ biasλ₯Ό μ΄ν΄λ³΄μ. $\hat{\beta}$μ νκ· μΈ $E[\hat{\beta}]$λ₯Ό ꡬν΄λ³΄μ.
λ§μ½, $E[Y] = X^T \beta$λΌλ©΄,
\[\begin{aligned} E[\hat{\beta}] &= E\left[ (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \mathbf{y} \right] = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T E [\mathbf{y}] \\ &= (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T (X \beta) = \beta \end{aligned}\]$E[\mathbf{y}]$ μ λ
$\mathbf{y} = (y_1, \dots, y_n)^T$μ λν΄ $E[\mathbf{y}]$λ
\[E[\mathbf{y}] = \begin{pmatrix} E[y_1] \\ \vdots \\ E[y_n] \end{pmatrix} = \begin{pmatrix} x_1^T \beta \\ \vdots \\ x_n^T \beta \end{pmatrix} = \mathbf{X} \beta\]$E[\hat{\beta}] = \beta$μ΄κΈ° λλ¬Έμ unbiased estimatorλΌκ³ ν μ μλ€. μ΄κ²μ μλ―Έλ μ΄ estimatorμ μ±λ₯μ΄ νκ· μ μΈ κ΄μ μμλ μ λ§ μ μΆμ νλ€λ λ§μ΄λ€.
μ’ ν©νλ©΄, LS estimatorλ biasμ κ²½μ° unbiasedμλ€. νμ§λ§, varianceμ κ²½μ° νλ ¬μ ννλ‘ λμλ€. μ 체μ κ΄μ μμ λ΄€μ λ, LS estimatorλ λΆμ°μ΄ ν° νΈμ΄κΈ° λλ¬Έμ μμ£Ό μ’μ estimatorλ μλλΌκ³ νλ€.
μ΄λ²μλ estimatorμμ μ€μ°¨μ λν varianceμΈ $\sigma^2$λ μΆμ ν΄λ³΄μ.
\[\hat{\sigma} = \frac{1}{n} \sum^n_{i=1} (y_i - \hat{y_i})^2 = \frac{1}{n} \sum^n_{i=1} (y_i - x_i \hat{\beta})^2\]κ·Έλ°λ° μ¬κΈ°μμ $n$μ΄ μλλΌ $n-p$λ‘ λλλλ‘ νλ€.
\[\hat{\sigma} = \frac{1}{n-p} \sum^n_{i=1} (y_i - x_i \hat{\beta})^2 = \frac{1}{n-p} \| \mathbf{y} - \hat{\mathbf{y}} \|\]μ΄λ, $(n-p)$λ <μμ λ>λ₯Ό μλ―Ένλλ°, μ΄ λΆλΆμ μμ§ν μμ§ μ λͺ¨λ₯΄λ λΆλΆμ΄λΌ μμΈν μ€λͺ μ μλ΅νλ€.
μΌλ¨ λ§μ½ μ λ κ² $\sigma^2$λ₯Ό μΆμ νλ€λ©΄, μ΄κ²μ΄ unbiased estimaor μμ μ λν μ μλ€κ³ νλ€.
\[E[\hat{\sigma^2}] = \sigma^2\]