Prediction on Regression

“확률과 통계(MATH230)” 수업에서 배운 것과 공부한 것을 정리한 포스트입니다. 전체 포스트는 Probability and Statistics에서 확인하실 수 있습니다 🎲

June 10, 2021 6 minute read

“확률과 통계(MATH230)” 수업에서 배운 것과 공부한 것을 정리한 포스트입니다. 전체 포스트는 Probability and Statistics에서 확인하실 수 있습니다 🎲

우리는 이전 포스트 “Test on Regression“에서 regression coefficient $B_1$, $B_0$의 분포를 확인했다. 이번 포스트에서는 이 결과를 종합해 우리가 regression 모델로부터 얻는 response의 분포를 추정해보는 과정을 진행한다.

개인적으로는 “$B_1$와 $B_0$이 estimated regression coefficient이기 때문에 모델로부터 얻는 response $y$ 역시 estimated response로 어느정도의 불확실성을 가지고 있다. 이를 $B_1$과 $B_0$의 불확실성을 모델링한 이들의 분포를 이용해 추정한다!”라고 이해했다.

우리는 mean response $\mu_{Y\mid x_0}$을 통해 모델이 뱉는 response의 불확실성을 추정할 것이며, 또 new data $X_0 = x_0$에 대해 수행하는 prediction의 불확실성을 추정할 것이다.

Estimate on Mean Response

Supp. we have sample points $(x_1, y_1), \dots, (x_n, y_n)$ from $Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ where $\epsilon_i$s are iid $N(0, \sigma^2)$. Here, $\beta_0$ and $\beta_1$ are unknown parameters.

Q. Given data $x=x_0$, what can be the mean response $\mu_{Y\mid x_0}$?

이때, $x_0$는 sample point에서 유래하거나 미리 설정한 값이 아니라, variable $Y_0$의 값 $y_0$를 predict하는 용도의 값이다.

\[\mu_{Y \mid x_0} = E[Y_0] = E[\beta_0 + \beta_1 x_0 + \epsilon_i] = \beta_0 + \beta_1 x_0 + \cancelto{0}{E[\epsilon_i]}\]

그러나 우리는 $\beta_0$, $\beta_1$의 값을 모르기 때문에 샘플로부터 적당한 point estimator $\hat{Y}_0$를 정의할 것이다.

\[\hat{Y}_0 = B_0 + B_1 x_0\]

이제, $\hat{Y}_0$의 분포에 대해 살펴보자. 이때, $B_0$, $B_1$가 normal 분포이므로, $\hat{Y}_0$ 역시 normal 분포를 따른다.

1. Mean

\[\begin{aligned} E[\hat{Y}_0] &= E[B_0 + B_1 x_0] \\ &= \beta_0 + \beta_1 x_0 = \mu_{Y \mid x_0} \end{aligned}\]

이때 위의 사실을 통해 $\hat{Y}_0$가 unbiased estimator임도 알 수 있다!

2. Variance

\[\begin{aligned} \text{Var}(\hat{Y}_0) &= \text{Var}(\bar{y} + B_1 (x_0 - \bar{x})) \\ &= \text{Var}(\bar{y}) + \text{Var}(B_1 (x_0 - \bar{x})) + \text{Cov}(\bar{y}, B_1) \end{aligned}\]

이때, $\bar{y} \perp B_1$이므로, $\text{Cov}(\bar{y}, B_1) = 0$이 된다. (Homework 🎈)

따라서,

\[\begin{aligned} &= \text{Var}(\bar{y}) + \text{Var}(B_1 (x_0 - \bar{x})) + \cancelto{0}{\text{Cov}(\bar{y}, B_1)} \\ &= \frac{\sigma^2}{n} + (x_0 - \bar{x})^2 \cdot \text{Var}(B_1) \\ &= \frac{\sigma^2}{n} + (x_0 - \bar{x})^2 \cdot \frac{\sigma^2}{S_{xx}} \\ &= \sigma^2 \left( \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right) \end{aligned}\]

따라서, $\hat{Y}_0$의 분포는 아래와 같다.

\[\hat{Y}_0 \sim N \left( \mu_{Y \mid x_0}, \; \sigma^2 \left( \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right) \right)\]

이때 error variance $\sigma^2$의 값을 모르므로, sample error variance $s^2$를 사용하면,

\[\frac{\hat{Y}_0 - \mu_{Y \mid x_0}}{s \sqrt{\dfrac{1}{n} + \dfrac{(x_0 - \bar{x})^2}{S_{xx}}}} \sim t(n-2)\]

이에 위의 분포를 사용해, data $x_0$에 대한 mean response $\mu_{Y \mid x_0}$의 “confidence interval”을 구할 수 있다! 😆

Prediction Interval

앞에서 구한 “mean response $\mu_{Y \mid x_0}$”는 우리에게 $x=x_0$라는 값이 주어졌을 때 모델의 불확실성을 추정하는 과정이었다. 이번에는 모델에 new data $X_0 = x_0$가 주어졌을 때, 이에 대한 prediction의 불확실성을 추정하는 과정을 수행한다. 이것은 $X_0$의 response $Y_0$가 기존의 $Y_i$와 independent 하기 때문에 - 심지어 $x_0 = x_i$ 일지라도 $Y_0 \perp Y_i$이다 - 앞의 “mean response”와는 다르게 접근해야 한다!

$Y_0$는 $Y_0 = \beta_0 + \beta_1 x_0 + \epsilon_0$ where $\epsilon_0 \sim N(0, \sigma^2)$ and iid.

따라서, $Y_0$의 분포는 아래와 같다.

\[Y_0 \sim N(\beta_0 + \beta_1 x_0, \; \sigma^2)\]

이때, $Y_0 \perp Y_i$이고, 마찬가지로 $Y_0 \perp \hat{Y}_0$이다.

이때, $\hat{Y}_0$에 대한 분포는 위에서 구한 적이 있다. 그대로 사용하면,

\[\hat{Y}_0 \sim N \left( \beta_0 + \beta_1 x_0, \; \sigma^2 \left( \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right) \right)\]

이때 $Y_0$는 $\hat{Y}_0$와 독립이므로 아래가 성립한다.

\[Y_0 - \hat{Y}_0 \sim N \left( 0, \; \sigma^2 \left( 1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right) \right)\]

이때 error variance $\sigma^2$의 값을 모르므로, sample error variance $s^2$를 사용하면,

\[\frac{Y_0 - \hat{Y}_0}{s \sqrt{1 + \dfrac{1}{n} + \dfrac{(x_0 - \bar{x})^2}{S_{xx}}}} \sim t(n-2)\]

이때, 주목할 점은 일반적으로 “response interval”이 “prediction interval”보다 더 좁다는 것이다. 개인적으로 해석해보자면, “prediction interval”의 경우, 새롭게 추가되는 data $X_0$이 기존의 데이터와 독립이기 때문에 이런 차이가 발생하는 것 같다. 또, 애초에 “response interval”과 “prediction interval”은 추정의 대상 자체가 다르다! 😁

본인 말고도 두 개념이 헷갈리는 사람이 많은 것 같아. 구글에 검색해보니 둘을 비교하는 포스트가 꽤 있었다. 아래는 그 중에서 둘을 한 문장을 비교한 문구를 가져온 것이다.

A mean response interval is a confidence interval for the mean of all Y’s at a given X value.

A prediction interval is a prediction interval for one single Y at a given X value.

– from a post of ‘Carsten Grube’

이것으로 “확률과 통계(MATH230)”의 정규수업에서 다룬 모든 내용을 살펴봤다!! 😁

Seokyun Ha (aka. bluehorn07)

Prediction on Regression

Estimate on Mean Response

Prediction Interval

You may also enjoy

2026년 목표

Define Custom Kafka Source Connector

Define Custom Kafka Connect Transform

Deploy Debeizum Mysql Connector