Prediction & Tolerance Estimation
โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ ์์ ์์ ๋ฐฐ์ด ๊ฒ๊ณผ ๊ณต๋ถํ ๊ฒ์ ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ฒ
Interval Estimation ํฌ์คํธ์์ ๋ค๋ฃฌ <Interval Estimation>์ ํน์ ์ํฉ์ ์ด๋ป๊ฒ ์ ์ฉํ ์ ์๋์ง๋ฅผ ๋ค๋ฃจ๋ ํฌ์คํธ์ ๋๋ค.
Prediction Interval
Supp. the data points $x_1, x_2, \dots, x_n$ are drawn from $N(\mu, \sigma^2)$ with known $\sigma^2$. Now, we draw one more data point $x_0$. Can we estimate where this new data point $x_0$ can be?
Q. Find a confidence interval of the new observation $x_0$ by using data points $x_1, \dots, x_n$.
(๊ฐ์ ) Here, assume $X_1, \dots, X_n$ follow iid normal $N(\mu, \sigma^2)$, and the new observation $X_0 \sim N(\mu, \sigma^2)$ and $X_0 \perp X_i$.
๋จผ์ , ์ฐ๋ฆฌ๋ ์๋์ ๊ฐ์ ๋ถํฌ๋ฅผ ์๊ฐํด๋ณผ ์ ์๋ค.
\[(X_0 - \bar{X}) \; \sim \; N \left(0, \; \sigma^2 + \frac{\sigma^2}{n} \right)\]์์ ๋ถํฌ๋ฅผ ๋ฐํ์ผ๋ก Confidence Interval์ ๊ตฌํ๋ฉด,
\[\begin{aligned} 1 - \alpha &= P \left(-z_{\alpha/2} \le \frac{X_0 - \bar{x}}{\sqrt{\sigma^2 + \frac{\sigma^2}{n}}} \le z_{\alpha/2} \right) \\ &= P \left(\bar{x} - z_{\alpha/2} \cdot \sqrt{\sigma^2 + \frac{\sigma^2}{n}} \le X_0 \le \bar{x} + z_{\alpha/2} \cdot \sqrt{\sigma^2 + \frac{\sigma^2}{n}} \right) \end{aligned}\]๐ฅ ๋ง์ฝ $\sigma^2$์ ๋ชจ๋ฅธ๋ค๋ฉด, ์์ ์์์ $z_{\alpha/2}$ ๋ถ๋ถ์ $t_{\alpha/2}$๋ก ๋ฐ๊ฟ์ฃผ๋ฉด ๋๋ค!!
Tolerance Interval
<Prediction Interval>์์๋ โthe next observationโ์ด๋ผ๋ single observation์ ๊ด์ฌ์ ๊ฐ์ก๋ค. ๋ฐ๋ฉด์, ๋๋ก๋ population์ ๊ฐ์ ์ผ๋ง๋ ์ปค๋ฒํ๋์ง ๊ทธ bound๋ฅผ ๊ตฌํด์ผ ํ ๋๋ ์๋ค. <Tolerance Interval> ๋๋ <Tolerance Limits>๋ ์ด๋ฐ bound๋ฅผ estimationํ๋ ๊ณผ์ ์ ๋งํ๋ค!
Now, our interest is the proportion of the distribution where is the large bulk of our distribution.
Q. Let $X \sim N(\mu, \sigma^2)$, can you find interval which contains 95% of the population distribution?
[$\mu$ and $\sigma^2$ both are known]
\[\mu \pm 1.96 \sigma\]์์ ๋ฒ์๋ โ์ ํํโ population distribution์ 95%๋ฅผ ์ปค๋ฒํ๋ค! ์ฐ๋ฆฌ๋ ์ด๊ฒ์ <Tolerance Interval>์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค!!
[$\mu$ and $\sigma^2$ both are unknown]
๋๋ถ๋ถ์ ๊ฒฝ์ฐ, ๋ ํ๋ผ๋ฏธํฐ $\mu$, $\sigma^2$์ ๋ํ ๋ชจ๋ฅธ๋ค. ์ด ๊ฒฝ์ฐ, ์ฐ๋ฆฌ๋ sample mean $\bar{x}$, sample variance $s^2$๋ฅผ ์ฌ์ฉํด ์๋์ ๊ฐ์ด interval์ ๋ง๋ค ์ ๋ฐ์ ์๋ค.
\[\bar{x} \pm k s\]์์ interval์ ๊ตฌ์ฑํ๋ ๋ ์์ด ๋ชจ๋ RV์ด๊ธฐ ๋๋ฌธ์, ์์ interval ์ญ์ RV์ด๋ฉฐ population distribution์ ์ปค๋ฒํ๋ ๋น์จ(proportion) ์ญ์ ์ ํํ ๊ฒฐ์ ๋์ง ์๋๋ค. ์ฐ๋ฆฌ์ ๋ชฉํ๋ ์์ sample parameter์์ ์ถ์ ํ ์์ interval์ ๊ตฌํ๋ ๊ฒ์ด๋ฉฐ, $\bar{x} \pm k s$์ <Tolerance Limits>๋ผ๊ณ ํ๋ค!
<Tolerance Limits>๋ฅผ ๊ตฌํ๊ธฐ ์ํด 2๊ฐ์ง ๊ฐ์ ๊ฒฐ์ ํด์ผ ํ๋ค.
1. population distribution์ ์ผ๋ง๋ coverํ๋ interval์ ์ถ์ ํ ๊ฒ์ธ์ง: $1 - \alpha$
์ด๊ฒ์ $\bar{x} \pm k s$๊ฐ ์ผ๋งํผ์ distribution์ ์ปค๋ฒํ๋์ง ๊ฒฐ์ ํ๋ค. ์๋ฅผ ๋ค์ด, $\alpha=0.05$๋ผ๋ฉด, ์ฐ๋ฆฌ๋ $\bar{x} \pm k s$๊ฐ population distribution์ 95%๋ฅผ ์ปค๋ฒํ๋ค๊ณ ๋งํ ๊ฒ์ด๋ค.
2. interval์ ์ ๋ขฐ๋: $1 - \gamma$
์ด๊ฒ์ RV์ธ $\bar{x} \pm k s$์ ์ ๋ขฐ๋๋ฅผ ์ ์ํ๋ค. ์ํ๋ง์ ๋ฐ๋ณตํ ๋๋ง๋ค $\bar{x}$, $s^2$๋ ๋ ๋ณํ ๊ฒ์ด๊ณ , ๋ฐ๋ผ์ ์ฐ๋ฆฌ๊ฐ ๊ตฌํ $\bar{x} \pm k s$๋ ์ ํํ ๊ฐ์ด ์๋๋ผ RV์ด๋ค. ๊ทธ๋์ ์ ์ํ $\bar{x} \pm k s$๊ฐ ์ผ๋งํผ์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง๋์ง ์ ์ํด์ผ ํ๋ค. ๋ง์ฝ $\gamma=0.05$๋ผ๋ฉด, ์ฐ๋ฆฌ๋ $\bar{x} \pm k s$๊ฐ 95%์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ง๋ค๊ณ ๋งํ ๊ฒ์ด๋ค.
์์์ผ๋ก ํํํด๋ณด๋ฉด ์๋์ ๊ฐ๋ค.
$L(X_1, \dots, X_n)$, $U(X_1, \dots, X_n)$๋ฅผ ๊ฐ๊ฐ <Tolerance Limits>์ ์๋ bound๋ผ๊ณ ํด๋ณด์. ๋์ RV์ด๋ค.
์ฐ๋ฆฌ๋ $L(X_1, \dots, X_n)$ and $U(X_1, \dots, X_n)$ s.t. $(L, U)$ contains $95\% = (1-\alpha)\%$ of population with $100(1-\gamma)\%$ confidence๋ผ๋ ๋ <statistics>๋ฅผ ์ถ์ ํด์ค์ผ ํ๋ค!! ๐ฒ
\[P \left( F(U) - F(L) \ge 0.95 \right) = 1 - \gamma\]where $F$ is the CDF of $N(0, 1)$.
๊ฒฐ๊ตญ <Tolerance Limits>๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ์ฐ๋ฆฌ๊ฐ ๊ตฌํด์ผ ํ ๊ฒ์ $k$์ด๋ค. ์ด ๊ฐ์ <Tolerance Table>์ ํตํด ๊ตฌํ๋ฉด ๋๋ค. ์๋๋ ํ ์ด๋ธ์ ์์๋ค.
๐ Tolerance Table
๊ฐ์ ์๋์ 3๊ฐ์ง ํ๋ผ๋ฏธํฐ๋ก ๊ตฌํ๋ฉด ๋๋ค.
- Confidence Level of interval: $1-\gamma$
- Percent Coverage: $1-\alpha$
- sample size: $n$
์์ ๋ฅผ ํตํด <Confidence Interval>๊ณผ <Prediction Interval>, <Tolerance Interval>์ ๊ทธ ์ฐจ์ด๋ฅผ ์ตํ๋ณด์.
์ด์ด์ง๋ ํฌ์คํธ์์๋ โ๋ ๊ฐ์ง ์ํโ์ด ์กด์ฌํ๋ Two Samples ์ํฉ์ ๋ค๋ฃฌ๋ค. ์ฃผ๋ก ๋ ์ํ์ ํ๊ท ์ ์ฐจ $(\mu_1 - \mu_2)$๋ฅผ ์ถ์ ํ๊ฑฐ๋, ๋ ์ํ์ ๋ถ์ฐ์ ๋น์จ $\sigma_1^2 / \sigma_2^2$์ ์ถ์ ํ๋ค.
- Two Samples Estimation: Diff btw two means
- Two Samples Estimation: Paired Observations
- Variance Estimation
- Single Sample
- Two Samples