“확률과 통계(MATH230)” 수업에서 배운 것과 공부한 것을 정리한 포스트입니다. 전체 포스트는 Probability and Statistics에서 확인하실 수 있습니다 🎲

3 minute read

“확률과 통계(MATH230)” 수업에서 배운 것과 공부한 것을 정리한 포스트입니다. 전체 포스트는 Probability and Statistics에서 확인하실 수 있습니다 🎲

이 글은 “Introduction to Linear Regression” 포스트에서 제시한 숙제들을 풀이한 포스트입니다.

Theorem.

The sum of residuals is zero.

\[\sum_{i=1}^n e_i = \sum_{i=1}^n (y_i - \hat{y}_i) = 0\]

proof.

\[\begin{aligned} \sum_{i=1}^n e_i &= \sum_{i=1}^n (y_i - \hat{y}_i) \\ &= \sum_{i=1}^n (y_i - (b_0 + b_1 x_i)) \\ &= \sum_{i=1}^n \left(y_i - (\bar{y} + b_1 (x_i - \bar{x})) \right) \\ &= \sum_{i=1}^n (y_i - \bar{y} - b_1 (x_i - \bar{x})) \\ &= \cancelto{0}{\sum_{i=1}^n (y_i - \bar{y})} - b_1 \cancelto{0}{\sum_{i=1}^n (x_i - \bar{x})} \\ &= 0 \end{aligned}\]

$\blacksquare$


Theorem.

The sum of product of residual and $x_i$s is zero.

\[\sum_{i=1}^n x_i e_i = \sum_{i=1}^n x_i (y_i - \hat{y}_i) = 0\]

proof.

\[\begin{aligned} \sum_{i=1}^n x_i e_i &= \sum_{i=1}^n x_i (y_i - \hat{y}_i) \\ &= \sum_{i=1}^n x_i (y_i - \bar{y} - b_1 (x_i - \bar{x})) \\ &= \sum_{i=1}^n x_i (y_i - \bar{y}) - b_1 \sum_{i=1}^n x_i (x_i - \bar{x}) \\ &= \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) - b_1 \sum_{i=1}^n (x_i - \bar{x_i}) (x_i - \bar{x}) \\ &= S_{xy} - \frac{S_{xy}}{\cancel{S_{xx}}} \cdot \cancel{S_{xx}} \\ &= 0 \end{aligned}\]

$\blacksquare$


Theorem.

\[\begin{aligned} \sum_{i=1}^n (y_i - \bar{y})^2 &= \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^n (y_i - \hat{y}_i)^2 \\ \text{SST} &= \text{SSR} + \text{SSE} \end{aligned}\]

proof.

(스포) 증명 과정에서 위에서 증명했던 두 명제를 사용한다!

\[\begin{aligned} \sum_{i=1}^n (y_i - \bar{y})^2 &= \sum_{i=1}^n (y_i - \hat{y}_i + \hat{y}_i - \bar{y})^2 \\ &= \sum_{i=1}^n \left((y_i - \hat{y}_i) + (\hat{y}_i - \bar{y})\right)^2 \\ &= \sum_{i=1}^n (y_i - \hat{y}_i)^2 + 2 \sum_{i=1}^n (y_i - \hat{y}_i)(\hat{y}_i - \bar{y}) + \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 \\ \end{aligned}\]

이때, 위의 식에서 중간의 텀만 따로 떼어보자. 그리고 $\hat{y}_i$에 대한 식을 대입하면,

\[\begin{aligned} \sum_{i=1}^n (y_i - \hat{y}_i)(\hat{y}_i - \bar{y}) &= \sum_{i=1}^n (y_i - \hat{y}_i)(b_0 + b_1 x_i - \bar{y}) \\ &= \sum_{i=1}^n (y_i - \hat{y}_i)((\cancel{\bar{y}} - b_1 \bar{x}) + b_1 x_i - \cancel{\bar{y}}) \\ &= \sum_{i=1}^n (y_i - \hat{y}_i) \cdot b_1 (x_i - \bar{x}) \\ &= b_1 \cdot \left( \cancelto{0}{\sum_{i=1}^n (y_i - \hat{y}_i) x_i} - \bar{x} \cdot \cancelto{0}{\sum_{i=1}^n (y_i - \hat{y}_i)} \right) \\ &= 0 \end{aligned}\]