Prediction on Regression
โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ ์์ ์์ ๋ฐฐ์ด ๊ฒ๊ณผ ๊ณต๋ถํ ๊ฒ์ ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ฒ
์ฐ๋ฆฌ๋ ์ด์ ํฌ์คํธ โTest on Regressionโ์์ regression coefficient $B_1$, $B_0$์ ๋ถํฌ๋ฅผ ํ์ธํ๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ด ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํด ์ฐ๋ฆฌ๊ฐ regression ๋ชจ๋ธ๋ก๋ถํฐ ์ป๋ response์ ๋ถํฌ๋ฅผ ์ถ์ ํด๋ณด๋ ๊ณผ์ ์ ์งํํ๋ค.
๊ฐ์ธ์ ์ผ๋ก๋ โ$B_1$์ $B_0$์ด estimated regression coefficient์ด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ๋ก๋ถํฐ ์ป๋ response $y$ ์ญ์ estimated response๋ก ์ด๋์ ๋์ ๋ถํ์ค์ฑ์ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ฅผ $B_1$๊ณผ $B_0$์ ๋ถํ์ค์ฑ์ ๋ชจ๋ธ๋งํ ์ด๋ค์ ๋ถํฌ๋ฅผ ์ด์ฉํด ์ถ์ ํ๋ค!โ๋ผ๊ณ ์ดํดํ๋ค.
์ฐ๋ฆฌ๋ mean response $\mu_{Y\mid x_0}$์ ํตํด ๋ชจ๋ธ์ด ๋ฑ๋ response์ ๋ถํ์ค์ฑ์ ์ถ์ ํ ๊ฒ์ด๋ฉฐ, ๋ new data $X_0 = x_0$์ ๋ํด ์ํํ๋ prediction์ ๋ถํ์ค์ฑ์ ์ถ์ ํ ๊ฒ์ด๋ค.
Estimate on Mean Response
Supp. we have sample points $(x_1, y_1), \dots, (x_n, y_n)$ from $Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ where $\epsilon_i$s are iid $N(0, \sigma^2)$. Here, $\beta_0$ and $\beta_1$ are unknown parameters.
Q. Given data $x=x_0$, what can be the mean response $\mu_{Y\mid x_0}$?
์ด๋, $x_0$๋ sample point์์ ์ ๋ํ๊ฑฐ๋ ๋ฏธ๋ฆฌ ์ค์ ํ ๊ฐ์ด ์๋๋ผ, variable $Y_0$์ ๊ฐ $y_0$๋ฅผ predictํ๋ ์ฉ๋์ ๊ฐ์ด๋ค.
\[\mu_{Y \mid x_0} = E[Y_0] = E[\beta_0 + \beta_1 x_0 + \epsilon_i] = \beta_0 + \beta_1 x_0 + \cancelto{0}{E[\epsilon_i]}\]๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ $\beta_0$, $\beta_1$์ ๊ฐ์ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ์ํ๋ก๋ถํฐ ์ ๋นํ point estimator $\hat{Y}_0$๋ฅผ ์ ์ํ ๊ฒ์ด๋ค.
\[\hat{Y}_0 = B_0 + B_1 x_0\]์ด์ , $\hat{Y}_0$์ ๋ถํฌ์ ๋ํด ์ดํด๋ณด์. ์ด๋, $B_0$, $B_1$๊ฐ normal ๋ถํฌ์ด๋ฏ๋ก, $\hat{Y}_0$ ์ญ์ normal ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค.
1. Mean
\[\begin{aligned} E[\hat{Y}_0] &= E[B_0 + B_1 x_0] \\ &= \beta_0 + \beta_1 x_0 = \mu_{Y \mid x_0} \end{aligned}\]์ด๋ ์์ ์ฌ์ค์ ํตํด $\hat{Y}_0$๊ฐ unbiased estimator์๋ ์ ์ ์๋ค!
2. Variance
\[\begin{aligned} \text{Var}(\hat{Y}_0) &= \text{Var}(\bar{y} + B_1 (x_0 - \bar{x})) \\ &= \text{Var}(\bar{y}) + \text{Var}(B_1 (x_0 - \bar{x})) + \text{Cov}(\bar{y}, B_1) \end{aligned}\]์ด๋, $\bar{y} \perp B_1$์ด๋ฏ๋ก, $\text{Cov}(\bar{y}, B_1) = 0$์ด ๋๋ค. (Homework ๐)
๋ฐ๋ผ์,
\[\begin{aligned} &= \text{Var}(\bar{y}) + \text{Var}(B_1 (x_0 - \bar{x})) + \cancelto{0}{\text{Cov}(\bar{y}, B_1)} \\ &= \frac{\sigma^2}{n} + (x_0 - \bar{x})^2 \cdot \text{Var}(B_1) \\ &= \frac{\sigma^2}{n} + (x_0 - \bar{x})^2 \cdot \frac{\sigma^2}{S_{xx}} \\ &= \sigma^2 \left( \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right) \end{aligned}\]๋ฐ๋ผ์, $\hat{Y}_0$์ ๋ถํฌ๋ ์๋์ ๊ฐ๋ค.
\[\hat{Y}_0 \sim N \left( \mu_{Y \mid x_0}, \; \sigma^2 \left( \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right) \right)\]์ด๋ error variance $\sigma^2$์ ๊ฐ์ ๋ชจ๋ฅด๋ฏ๋ก, sample error variance $s^2$๋ฅผ ์ฌ์ฉํ๋ฉด,
\[\frac{\hat{Y}_0 - \mu_{Y \mid x_0}}{s \sqrt{\dfrac{1}{n} + \dfrac{(x_0 - \bar{x})^2}{S_{xx}}}} \sim t(n-2)\]์ด์ ์์ ๋ถํฌ๋ฅผ ์ฌ์ฉํด, data $x_0$์ ๋ํ mean response $\mu_{Y \mid x_0}$์ โconfidence intervalโ์ ๊ตฌํ ์ ์๋ค! ๐
Prediction Interval
์์์ ๊ตฌํ โmean response $\mu_{Y \mid x_0}$โ๋ ์ฐ๋ฆฌ์๊ฒ $x=x_0$๋ผ๋ ๊ฐ์ด ์ฃผ์ด์ก์ ๋ ๋ชจ๋ธ์ ๋ถํ์ค์ฑ์ ์ถ์ ํ๋ ๊ณผ์ ์ด์๋ค. ์ด๋ฒ์๋ ๋ชจ๋ธ์ new data $X_0 = x_0$๊ฐ ์ฃผ์ด์ก์ ๋, ์ด์ ๋ํ prediction์ ๋ถํ์ค์ฑ์ ์ถ์ ํ๋ ๊ณผ์ ์ ์ํํ๋ค. ์ด๊ฒ์ $X_0$์ response $Y_0$๊ฐ ๊ธฐ์กด์ $Y_i$์ independent ํ๊ธฐ ๋๋ฌธ์ - ์ฌ์ง์ด $x_0 = x_i$ ์ผ์ง๋ผ๋ $Y_0 \perp Y_i$์ด๋ค - ์์ โmean responseโ์๋ ๋ค๋ฅด๊ฒ ์ ๊ทผํด์ผ ํ๋ค!
$Y_0$๋ $Y_0 = \beta_0 + \beta_1 x_0 + \epsilon_0$ where $\epsilon_0 \sim N(0, \sigma^2)$ and iid.
๋ฐ๋ผ์, $Y_0$์ ๋ถํฌ๋ ์๋์ ๊ฐ๋ค.
\[Y_0 \sim N(\beta_0 + \beta_1 x_0, \; \sigma^2)\]์ด๋, $Y_0 \perp Y_i$์ด๊ณ , ๋ง์ฐฌ๊ฐ์ง๋ก $Y_0 \perp \hat{Y}_0$์ด๋ค.
์ด๋, $\hat{Y}_0$์ ๋ํ ๋ถํฌ๋ ์์์ ๊ตฌํ ์ ์ด ์๋ค. ๊ทธ๋๋ก ์ฌ์ฉํ๋ฉด,
\[\hat{Y}_0 \sim N \left( \beta_0 + \beta_1 x_0, \; \sigma^2 \left( \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right) \right)\]์ด๋ $Y_0$๋ $\hat{Y}_0$์ ๋ ๋ฆฝ์ด๋ฏ๋ก ์๋๊ฐ ์ฑ๋ฆฝํ๋ค.
\[Y_0 - \hat{Y}_0 \sim N \left( 0, \; \sigma^2 \left( 1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right) \right)\]์ด๋ error variance $\sigma^2$์ ๊ฐ์ ๋ชจ๋ฅด๋ฏ๋ก, sample error variance $s^2$๋ฅผ ์ฌ์ฉํ๋ฉด,
\[\frac{Y_0 - \hat{Y}_0}{s \sqrt{1 + \dfrac{1}{n} + \dfrac{(x_0 - \bar{x})^2}{S_{xx}}}} \sim t(n-2)\]์ด๋, ์ฃผ๋ชฉํ ์ ์ ์ผ๋ฐ์ ์ผ๋ก โresponse intervalโ์ด โprediction intervalโ๋ณด๋ค ๋ ์ข๋ค๋ ๊ฒ์ด๋ค. ๊ฐ์ธ์ ์ผ๋ก ํด์ํด๋ณด์๋ฉด, โprediction intervalโ์ ๊ฒฝ์ฐ, ์๋กญ๊ฒ ์ถ๊ฐ๋๋ data $X_0$์ด ๊ธฐ์กด์ ๋ฐ์ดํฐ์ ๋ ๋ฆฝ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ฐ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ ๊ฒ ๊ฐ๋ค. ๋, ์ ์ด์ โresponse intervalโ๊ณผ โprediction intervalโ์ ์ถ์ ์ ๋์ ์์ฒด๊ฐ ๋ค๋ฅด๋ค! ๐
๋ณธ์ธ ๋ง๊ณ ๋ ๋ ๊ฐ๋ ์ด ํท๊ฐ๋ฆฌ๋ ์ฌ๋์ด ๋ง์ ๊ฒ ๊ฐ์. ๊ตฌ๊ธ์ ๊ฒ์ํด๋ณด๋ ๋์ ๋น๊ตํ๋ ํฌ์คํธ๊ฐ ๊ฝค ์์๋ค. ์๋๋ ๊ทธ ์ค์์ ๋์ ํ ๋ฌธ์ฅ์ ๋น๊ตํ ๋ฌธ๊ตฌ๋ฅผ ๊ฐ์ ธ์จ ๊ฒ์ด๋ค.
A mean response interval is a confidence interval for the mean of all Yโs at a given X value.
A prediction interval is a prediction interval for one single Y at a given X value.
โ from a post of โCarsten Grubeโ
์ด๊ฒ์ผ๋ก โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ์ ์ ๊ท์์ ์์ ๋ค๋ฃฌ ๋ชจ๋ ๋ด์ฉ์ ์ดํด๋ดค๋ค!! ๐