Proportion Test
โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ ์์ ์์ ๋ฐฐ์ด ๊ฒ๊ณผ ๊ณต๋ถํ ๊ฒ์ ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ฒ
Test on Proportion
Single Sample์์์ ๊ฒฝ์ฐ์ Two Sample์์์ ๊ฒฝ์ฐ๋ฅผ ๋ชจ๋ ๋ค๋ฃฌ๋ค.
Test on One Proportion
Consider a p-coin, and $p$ is unknown.
We want to test
- $H_0: p=1/3$
- $H_1: p>1/3$
We toss a coin $n$ times independently, and let $x$ be the #. of heads in theses $n$ trials.
Q1. What is the p-value?
A1. $H_1$์ด $p > 1/3$ ํํ์ด๋ฏ๋ก $x$๊ฐ ํน์ ๊ฐ $C$ ์ด์์ผ ๋, $H_0$๋ฅผ reject ํ๋ค.
\[P( X \ge C \mid p = 1/3)\]๊ทธ๋์ p-value๋ $C$ ์๋ฆฌ์ $x$๋ฅผ ๋์ ํด p-value๋ฅผ ์ ๋ํ๋ฉด ๋๋ค!
\[P(X \ge x \mid p = 1/3) = \text{p-value}\]Q2. ๋ง์ฝ $H_1: p < 1/3$ ํํ๋ผ๋ฉด?
A2. ์์ p-value ์์์ ๋ถํธ๋ง ๋ฐ๋๋ก ์ ์ด์ฃผ๋ฉด ๋๋ค.
\[P(X \le x \mid p = 1/3)\]Q3. ๋ง์ฝ $H_1: p \ne 1/3$์ ํํ๋ผ๋ฉด? (two-sided test)
A3. $X \le C_1$์ด๊ฑฐ๋ $X \ge C_2$์ผ ๋, $H_0$๋ฅผ ๊ธฐ๊ฐํ ๊ฒ์ด๋ค. ๋ฐ๋ผ์
\[P(X \le C_1 \;\; \text{or} \;\; X \ge C_2 \mid p = 1/3)\]๊ทธ๋ฐ๋ฐ ์คํ์์ ํ๋์ $x$ ๊ฐ๋ง์ ์ป์๊ณ , ์์ ๊ณผ์ ์ ๋ฐ๋ฅด๋ฉด, ์ด ๊ฐ์ $C$์ ๋์ ํ๋ค. ์ด๊ฒ์ ์ ์์ ์ ์ฉํ๋ฉด,
\[P(X \le x \;\; \text{or} \;\; X \ge x \mid p = 1/3) = 1\]๊ฐ ๋๋๋ฐ, ์ด ๊ฐ์ 1์ด๋ค! ๐ฒ ๋ณดํต ํ๋์ $x$ ๊ฐ๋ง ์๊ธฐ ๋๋ฌธ์, one-side test๋ฅผ ์ํํ๋๊ฒ ํฉ๋ฆฌ์ ์ด๋ค.
$X \le C_1$๊ณผ $X \ge C_2$ ์ค ์ด๋ค ๋ฐฉํฅ์ ์ทจํ ์ง ๊ฒฐ์ ํ๊ธฐ ์ํด, expected value $E[X]$๋ฅผ ๊ธฐ์ค์ผ๋ก ์ผ์. ์ด ๊ฐ์ $np$์ด๋ค.
- If $x < np$, take $X \le C_1$
- If $x > np$, take $X \ge C_2$
๋ง์ฝ $x < np$๋ผ๊ณ , ๊ฐ์ ํ๊ณ $X \le C_1$๋ก p-value๋ฅผ ๊ตฌํด์ผ ํ๋ค. p-value๋ ์๋์ ๊ฐ๋ค. ์์ธก ๊ฒ์ ์ด๊ธฐ ๋๋ฌธ์ $2$๋ฅผ ๊ณฑํด์ค๋ค.
\[2 \cdot P(X \le x \mid p = 1/3)\]๋ง์ฝ, $\alpha$ ๊ฐ์ด p-value ๋ณด๋ค ํฌ๋ค๋ฉด, $H_0$๋ฅผ ๊ธฐ๊ฐํ๋ค!
Test on Two Proportions
๋ ์งํฉ์ ๋น์จ์ด ๋์ผํ์ง, ์ฆ $p_1 = p_2$๋ฅผ ๊ฒ์ ํ๋ ๋ฌธ์ ๋ค. <Proportion Estimation>์์ ํ ๊ฒ์ฒ๋ผ CLT๋ฅผ ์ ์ฉํด Test Statistic์ ๊ตฌํ๋ฉด ์๋์ ๊ฐ๋ค.
\[\frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)}{\sqrt{\dfrac{p_1 q_1}{n_1} + \dfrac{p_2 q_2}{n_2}}} \sim N(0, 1)\]๋ง์ฝ โ๋ ์ง๋จ์ proportion์ด ๋์ผํ๋คโ๋ ๊ฐ์ ์ด ์ฐธ์ด๋ผ๋ฉด, $p = p_1 = p_2$์ด๋ฏ๋ก ์์ ๋ค์ ์ฐ๋ฉด,
\[\frac{(\hat{p}_1 - \hat{p}_2)}{\sqrt{pq (1/n_1 + 1/n_2)}}\]๊ทธ๋ฐ๋ฐ, ์ฐ๋ฆฌ๋ population proportion์ด $p_1 = p_2$ ๋ผ๋ ๊ฒ๋ง ์์ง $p_1$, $p_2$์ ๊ฐ์ ๋ชจ๋ฅธ๋ค. ๊ทธ๋์, <Proportion Estimation>์์ ํ ๊ฒ์ฒ๋ผ sample proportion $\hat{p}$์ ์ฌ์ฉํด์ผ ํ๋ค!
๊ทธ๋ฐ๋ฐ sample proportion $\hat{p}_1$๊ณผ $\hat{p}_2$ ๋ ์ค ๋ญ ์จ์ผํ ๊น? ๋์ ์ข ํฉํ pooled proportion $\hat{p}$์ ์ฌ์ฉํ๋ฉด ๋๋ค!
\[\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}\]์์ ๋ค์ ์ฐ๋ฉด,
\[\frac{(\hat{p}_1 - \hat{p}_2)}{\sqrt{\hat{p}\hat{q} \left(1/n_1 + 1/n_2\right)}}\]์์ ๊ณต์์ ํตํด p-value๋ฅผ ๊ตฌํ๊ณ , p-value๊ฐ $\alpha$ ๊ฐ๋ณด๋ค ์๋ค๋ฉด, $H_0$๋ฅผ ๊ธฐ๊ฐํ๋ค!
๋งบ์๋ง
์ด์ด์ง๋ ํฌ์คํธ์์ <proportion test>์ ์ผ๋ฐํํ <Chi-square Goodness-of-fit test>๋ฅผ ์ดํด๋ณธ๋ค. <chi-square distribution> $\chi^2$๋ฅผ ์ฌ์ฉํด ๊ฒ์ ์ ์ํํ๋ฉฐ, ์ด๋ฅผ ํตํด ํ๋ณธ์ ๋ ๋ฆฝ(independence)์ ๋์ง์ฑ(homogeneity)์ ๋ํ ๊ฒ์ ์ ํ ์ ์๋ค!