Introduction to Hypothesis Tests
โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ ์์ ์์ ๋ฐฐ์ด ๊ฒ๊ณผ ๊ณต๋ถํ ๊ฒ์ ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ฒ
Statistical Hypothesis
Definition. Statistical Hypothesis
A <statistical hypothesis> is a statement about the population distribution, usually, in terms of the parameter values.
Example.
Supp. we have a p-coin, I believe that it is a fair coin, on the other hand, you think it is a biased coin, in particular, you believe that $p=0.7$. What can we do?
- $H_0: p = 0.5$
- $H_1: p = 0.7$
Definition. Null Hypothetsis $H_0$ & Alternative Hypothesis $H_1$
- Null Hypothetsis $H_0$: a hypothesis we expect to reject
- Alternative Hypothesis $H_1$: a hypothesis we set out to prove
Q. How do we do <Hypothesis Test>?
A. First, we should set a <Test Statistic>!
Letโs toss a coin $n$-times independently. For each toss, let $X_i$ are $1$ for head and $0$ for otherwise.
Then, $X := \sum X_i$, the (# of heads in $n$ tosses) be $X \sim \text{BIN}(n, p)$.
Then, we can use $X$ as a <Test Statistic>!
์ฐ๋ฆฌ๋ ์ด <Test Statistic>๋ก ๊ฐ์ค $H_0$๋ฅผ reject ํ๊ฑฐ๋ reject ํ์ง ์์ ๊ฒ์ด๋ค!
์์ $H_0: p=0.5$, $H_1: p=0.7$์ ๊ฒฝ์ฐ์์ ์๊ฐํด๋ณด์. ๋ง์ฝ $X$๊ฐ large enough, ์ฆ โ$X \ge C$ for some $C$โ๋ผ๋ฉด, $H_0$๋ฅผ reject ํ๋๊ฒ ํฉ๋ฆฌ์ ์ด๋ค.
์ฐ๋ฆฌ๋ ์ด $H_0$๋ฅผ rejectํ๋ ๊ธฐ์ค์ด ๋๋ ๋ฒ์ $X \ge C$๋ฅผ <rejection region> ๋๋ <critical region>์ด๋ผ๊ณ ํ๋ฉฐ, ์ด ๋ฒ์๋ฅผ ์ก์ ๋ ์ฐ๋ ๊ฐ $C$๋ฅผ <critial value>๋ผ๊ณ ํ๋ค!
T1 Error & T2 Error
Q. How to choose $C$?
<critical value> $C$์ ๊ฐ์ ์ก๊ธฐ ์ํด์๋ <Type 1 Error>, <Type 2 Error>๋ฅผ ์ดํด๋ด์ผ ํ๋ค.
ย | reject $H_0$ | not reject $H_0$ |
---|---|---|
$H_0$ is true | Type 1 Error | good |
$H_0$ is false | good | Type 2 Error |
์ด ์ฌ์ง์ด Type 1, Type 2 Error๋ฅผ ๊ฐ์ฅ ์ ํํํ๋ ์ฌ์ง์ธ ๊ฒ ๊ฐ๋ค ใ ใ ใ
Case. Type 1 error; $\alpha$ error; ์๋ชป๋ ์ธ์
์ด๋, $P(T1)$์ ์ต๋ํ ์ค์ด๋ ค๋ฉด, $C$๋ฅผ ์ต๋ํ ํค์์ ์ฌ๋งํ ๊ฒฝ์ฐ๊ฐ ์๋๋ฉด $X$๊ฐ $X \ge C$์ ์กฐ๊ฑด์ ๋ง์กฑ์ํค์ง ๋ชป ํ๋๋ก ๋ง๋ค๋ฉด ๋๋ค. ์ฆ, $H_0$๋ฅผ reject ํ๋ ๊ธฐ์ค์ ๋นก์ธ๊ฒ ๋ง๋ ๋ค.
Case. Type 2 error; $\beta$ error; ์๋ชป๋ ๋ถ์
์ด๋, $P(T2)$๋ฅผ ์ต๋ํ ์ค์ด๋ ค๋ฉด, $C$๋ฅผ ์ต๋ํ ์ค์ฌ์ ์ฌ๋งํ๋ฉด $X$๊ฐ $X \ge C$๋ฅผ ๋ง์กฑ ์ํค๋๋ก ๋ง๋ค๋ฉด ๋๋ค. ์ฆ, ์ฌ๋งํ๋ฉด $H_0$๋ฅผ rejectํ๊ฒ ๋ง๋ ๋ค.
?? ๋ญ๊ฐ ์ด์ํ๋ค. $P(T1)$๋ฅผ ์ค์ด๋ ค๋ฉด, $C$๋ฅผ ํค์์ผ ํ๊ณ , $P(T2)$๋ฅผ ์ค์ด๋ ค๋ฉด, $C$๋ฅผ ์ค์ฌ์ผ ํ๋ค. ๐ ๋ญ๊ฐ ๋ง๋ ๊ฑธ๊น?
๋ต์ $P(T1)$๊ณผ $P(T2)$, ๋ ์ค ํ๋๋ง ๊ฐ๋ฅํ ์๊ฒ ๋ง๋ค ์ ์๋ค๋ ๊ฒ์ด๋ค ๐ฑ
๊ทธ๋ผ ๋๋ค๋ฅธ ์ง๋ฌธ์ด ๋ ์ค๋ฅธ๋ค.
Q. $P(T1)$๊ณผ $P(T2)$ ์ค ์ด๋ ๊ฒ์ ์ค์ฌ์ผ ์ข์๊น?
์๋์ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด๋ณด์.
- $H_0$: ํผ๊ณ A is innocent
- $H_1$: ํผ๊ณ A is guilty
์ด๋, T1 & T2 error๊ฐ ๋ฌด์์ ์๋ฏธํ๋์ง ์ ๋ณด์.
- T1 error: $H_0$๊ฐ ์ฌ์ค์ธ๋ฐ, $H_0$๋ฅผ reject
- T2 error: $H_1$์ด ์ฌ์ค์ธ๋ฐ, $H_1$์ reject
๋ ์ํฉ ์ค ๋ญ๊ฐ ๋ ์ ์ข์๊น? ๋น์ฐํ โT1 errorโ์ ๊ฒฝ์ฐ๋ค! ์๋ํ๋ฉด, ๋ฌด๊ณ ํ ์ฌ๋์ ์ ์ฃ๋ผ๊ณ ์ ๊ณ ํ๊ธฐ ๋๋ฌธ์ด๋ค!
โ์ ์ง๋จโ์ด๋ผ๋ ๋ค๋ฅธ ์ํฉ์ ์๊ฐํด๋ณธ๋ค๋ฉด,
- $H_0$: ํ์ B๋ ๊ฑด๊ฐํ๋ค.
-
$H_1$: ํ์ B๋ ์์ด ์๋ค.
- T1 error: ์ฌ์ค ํ์ B๊ฐ ๊ฑด๊ฐํ๋ฐ, ์ ํ์๋ก ์ง๋จ
- T2 error: ์ฌ์ค ํ์ B๊ฐ ์์ด ์๋๋ฐ, ๊ฑด๊ฐํ๋ค๊ณ ์ง๋จ
์ด ๊ฒฝ์ฐ์์๋ ๊ฑด๊ฐํ ์ฌ๋์ ์ ํ์๋ก ์ง๋จํด ์์ฒญ๋ ๋์ ์ฐ๊ฒ ํ์ผ๋ โT1 errorโ๊ฐ ๋ ์ ์ข๋ค.
์์ ๊ฐ์ ์ํฉ์ ๋ฐํ์ผ๋ก, ๋ ์ค ํ๋๋ง ์ค์ผ ์ ์๋ค๋ฉด, โT1 errorโ๋ฅผ ์ต๋ํ ์ค์ฌ๋ผ๋ ๊ฒฐ๋ก ์ ์ป๋๋ค.
๊ทธ๋ผ โT2 errorโ๋?? โT2 errorโ๋ ์ด์ ๋งก๊ธด๋ค๊ณ ํ๋ค ใ ใ ใ
๊ทธ ์ด์ ๋ T2 error์ ๊ฒฝ์ฐ, โnot reject $H_0$โ๋ผ๋ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋๋ฐ, ์ด๊ฒ์ด โ$H_1$๋ฅผ acceptํ๋คโ์๋ ๋ค๋ฅธ ์๋ฏธ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๊ฒฐ๊ตญ T2 error์์๋ $H_0$์ ๋ํด์๋ $H_1$์ ๋ํด์๋ ์ด๋ค ์ง์ ๋ ํ ์ ์๊ธฐ ๋๋ฌธ์, ๊ทธ๋๋ง ๊ด์ฐฎ๋ค๊ณ ๋ณด๋ ๊ฒ์ด๋ค!
Significance Level; $\alpha$
Definition. Significance level; size of a test; ์ ์ ์์ค $\alpha$
The probability of committing a <Type 1 Error> is called the <significance level>, and we use $\alpha$ to denote the significance level.
\[\alpha = P(\text{T1 Err}) = P(\text{reject} \; H_0 \mid H_0 \; \text{is true})\]๐ฅ commonly used values for $\alpha$ are $0.1$, $0.05$, $0.01$.
๐ฅ Interval Estimation์ ์ํํ ๋, ๋น์ทํ ๊ฒ์ ๋ดค์๋ค! ๋ฐ๋ก <Confidence Level> $1-\alpha$๋ค!
$\alpha$๋ 1์ข ์ค๋ฅ์ ๊ฐ๋ฅ์ฑ์ด๋ค. Critical Value $C$์ ์์กดํ๋ ๊ฐ์ผ๋ก $C$๊ฐ ์๊ฒฉํด์ง ์๋ก 1์ข ์ค๋ฅ์ ๊ฐ๋ฅ์ฑ์ธ $\alpha(C)$์ ๊ฐ์ ์ค์ด๋ค ๊ฒ์ด๋ค.
๋ณดํต์ 1์ข ์ค๋ฅ์ ์ํ์ ์ $0.1$, $0.05$, $0.01$ ์ ๋๋ก ์ค์ ํ๊ณ , ์ด๊ฒ์ <p-value>์ ๋น๊ตํ๋ค. <p-value>๋ ์๋์์ ๊ณง ๋ค๋ฃฐ ๊ฒ์ด๋ค.
Example.
$H_0: p=0.5$ vs. $H_1: p=0.7$
We toss a coin 20 times independently and obtained 14 heads. Test this at $\alpha = 0.0577$.
Solve.
Let $X = \sum X_i \sim \text{BIN}(20, p)$.
The critical region is $\{ X \ge C \}$.
Here, $\alpha = P(X \ge C \mid p=0.5) = P(\text{BIN}(20, 0.5) \ge C)$.
Then, by the cdf of $\text{BIN}(20, 0.5)$,
\[P(\text{BIN}(20, 0.5) \le 13) = 0.9423\]Therefore, $C = 14$.
We will reject $H_0$ if (# of heads in 20 tosses) is $\ge 14$.
Since $x=14$, we reject $H_0$ at $\alpha = 0.0577$. $\blacksquare$
Now, we consider T2 error case! If T2 error is small, then we might accept $H_0$.
Example.
(Same situation with the above example)
Solve.
Weโve found that $C=14$ from the privous example. Then,
\[P(\text{BIN}(20, 0.7) \le 14) = 0.392 \approx 0.4\]If we fail to reject $H_0$, then we canโt accept $H_0$ because $P(T2)$ is too height to not accept $H_0$.
Example.
(Now, everything is same but $H_1: p=0.8$)
Solve.
The critical point $C$ is same as the previous one, because $H_0$ doesnโt change. โ $C=14$
Now, T2 Error is
\[P(\text{T2 Err}) = P(X < 14 \mid p=0.8) = P(\text{BIN}(20, 0.8) < 14>) \approx 0.0867\]In this time, if we fail to reject $H_0$, then we can accept $H_0$!!
Power of Test; $\gamma(\theta)$
Definition. Power of Test; ๊ฒ์ ๋ ฅ
The <power of a test> $\gamma(\theta)$ at $\theta=\theta_1$ is defined as the probability of rejection of $H_0$ when $\theta=\theta_1$ is a true value.
\[\gamma(\theta_1) = P(\text{reject} \; H_0 \mid \theta = \theta_1)\]๐ฅ NOTE: $1-P(\text{T2 Err}) = \gamma(\theta_1)$
์ฆ, <power of test>๋ Null hypo $H_0$๊ฐ ๊ฑฐ์ง์ผ ๋, $H_0$๋ฅผ ๊ธฐ๊ฐ์ํค๋ ํ๋ฅ ์ด๋ค!
<๊ฒ์ ๋ ฅ>์ T2 Error๊ฐ ํด์๋ก ๊ทธ ๊ฐ์ด ์์์ง๋ค! ๊ทธ๋์ <๊ฒ์ ๋ ฅ>์ ๋์ด๊ณ ์ถ๋ค๋ฉด, T2 Error๋ฅผ ์ค์ด๋ ์ ์ ํ Alternative Hypothesis $H_1: \theta = \theta_1$๋ฅผ ์ ์ํด์ผ ํ๋ค.
์ด <power of test>๋ ์๋ ์ํฉ์ผ ๋, ๊ทธ ๊ฐ์ด ์ปค์ง๋ค.
- T2 Error๋ฅผ ์ค์ด๋ ์ ์ ํ Alternative Hypothesis $H_1: \theta = \theta_1$
- <significance level> $\alpha$ โฒ
- ํ๋ณธ์ ํฌ๊ธฐ $n$ โฒ
p-value
์ง๊ธ๊น์ง ์ฐ๋ฆฌ๋ <significance level> $\alpha$ ๊ฐ์ $0.1$, $0.05$ ๋ฑ์ผ๋ก ์ค์ ํ๊ณ , ์ด์ ๋ฐ๋ฅธ <critical value> $C$๋ฅผ ๊ตฌํ๊ณ , ์ด๊ฑธ Test Statistics $X$์ ๋น๊ตํด์ $H_0$๋ฅผ ๊ธฐ๊ฐํ ์ง ๊ฒฐ์ ํ๋ค. ๊ทธ๋ฐ๋ฐ $\alpha$ ๊ฐ์ ์ค์ ํ์ง ์๊ณ , Critical Value $C$๋ฅผ reject์ด ๊ฐ๋ฅํ ๊ฒฝ๊ณ์ธ $C = X$๋ก ์ค์ ํ ํ, $\alpha$์ ์ญ์ผ๋ก ๊ตฌํ ์ ์์ง ์์๊น? <p-value>๊ฐ ๋ฑ ๊ทธ๋ฐ ๋ ์์ด๋ค!
Definition. p-value; ์ ์ ํ๋ฅ
The <p-value> of a test is the lowest significance level at which $H_0$ can be rejected with the given data.
์ฃผ์ด์ง ๋ฐ์ดํฐ์ Test Statistic $X$๋ฅผ ๊ธฐ์ค์ผ๋ก $H_0$๋ฅผ reject ํ ์ ์๋ ๊ฐ์ฅ ์์ $\alpha$ ๊ฐ์ด ๋ฐ๋ก <p-value>์ด๋ค!
Q. ์ โ๊ฐ์ฅ ์์โ $\alpha$ ๊ฐ์ผ๊น?
A. T1 Error์ ๋ํด ์๊ธฐํ ๋, Critical Value $C$๋ฅผ ๋นก์ธ๊ฒ ์ก์ ์๋ก T1 Error์ ๊ฐ๋ฅ์ฑ์ด ์ค์ด๋ ๋ค๊ณ ํ๋ค. ์ฆ, $C$๊ฐ ๋นก์ ์๋ก $\alpha$ ๊ฐ์ด ์์์ง๋ค. ๋ณดํต์ $X > C$์ด๊ธฐ์ $H_0$๋ฅผ reject ํ๋๋ฐ, ์ด๊ฑธ ๊ฒฝ๊ณ์ธ $C = X$๊น์ง $C$ ๊ฐ์ ๋์ด์ฌ๋ฆผ์ผ๋ก์จ $\alpha$ ๊ฐ์ ์ต๋ํ ๋ฎ์ถ ๊ฒ์ด๋ค. ์ด๋ฐ ์ด์ ๋๋ฌธ์ <p-value>๊ฐ ์์ ์๋ก ์ ํด๋ $C_{0.1}$, $C_{0.05}$ ๊ฐ๋ณด๋ค ๋ ๋นก์ผ ์กฐ๊ฑด์์๋ $H_0$๊ฐ reject ๋จ์ ๋งํ๋ค.
์๋ฅผ ํตํด ์ ๋๋ก ์ดํดํด๋ณด์!
Example.
Everything is same to above situation.
- $H_0: p = 0.5$
- $H_1: p = 0.7$
Toss a coin 20 times independently, and obtained 14 heads.
BUT, in this time, we donโt have significance level $\alpha$!!
Solve.
The rejection region is $\{ X \ge C\}$.
$X = 14$๋ผ๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์์ $H_0$๋ฅผ ๊ธฐ๊ฐํ๋ ค๋ฉด, $X=14$๊ฐ ์ rejection region์ ํฌํจ๋์ด์ผ ํ๋ค. $X$๊ฐ rejection region์ ํฌํจ๋๋๋ก ํ๋ ๊ฐ์ฅ ์์ $C$ ๊ฐ์ $C=14$์ด๋ค!
์ด๋? ์ฐ๋ฆฌ๋ ์ด๋ฏธ $C=14$์ผ ๋์ T1 Error๋ฅผ ๊ตฌํ๋ค.
\[0.0577 = P(\text{BIN(20, 0.5)} \ge 14)\]์ฆ, significance level $\alpha=0.0577$๊ฐ $H_0$๋ฅผ ๊ธฐ๊ฐํ๋ ๊ฐ์ฅ ์์ ๊ฐ์ด๋ค. $0.0577$์ด ์ด๋ฒ ๊ฒ์ (Test)์ โp-valueโ๋ค!!
์ฐ๋ฆฌ๋ โp-valueโ๋ฅผ ์งํ๋ก ์ผ์ $H_0$๋ฅผ ๊ธฐ๊ฐํ ์ง ๊ฒฐ์ ํ ์ ์๋ค.
๋ง์ฝ, significance level $\alpha$์ ๋น๊ตํ์ ๋, โp-valueโ์ ๊ฐ์ด ๋ ์๋ค๋ฉด, ์ฆ $\alpha$๊ฐ ์์ฑํ๋ ๋์ด๊ฐ โp-valueโ๊ฐ ์์ฑํ๋ ๋์ด๋ฅผ ํฌํจํ๋ค๋ฉด, ์ด๊ฒ์ ์ฃผ์ด์ง ๋ฐ์ดํฐ๊ฐ $\alpha$์ critical region์ ์ํ๋ค๋ ๋ง์ด๊ธฐ ๋๋ฌธ์, $H_0$๋ฅผ ๊ธฐ๊ฐํ๋ค!
๋ฐ๋๋ก โp-valueโ์ ๊ฐ์ด ํฌ๋ค๋ฉด, $H_0$๋ฅผ ๊ธฐ๊ฐํ ์ ์๋ค.
๋ณดํต p-value๊ฐ 5%(=0.05)๋ณด๋ค ์๋ค๋ฉด โ์ ์ํ ์ฐจ์ด๊ฐ ์๋คโ๊ณ ์๊ธฐํ๋ค. ์ด๋ โ์ ์ํ ์ฐจ์ดโ๋ ์คํ์ผ๋ก ์ป์ ๊ฒฐ๊ณผ๊ฐ ๊ธฐ์กด ์ด๋ก ์ธ $H_0$์ด ์์ํ๋ ๊ฒฐ๊ณผ์ ์ฐจ์ด๊ฐ ํฌ๋ค๋ ๊ฒ์ ๋งํ๋ค. ๋ฐ๋ผ์ ๊ธฐ์กด ์ด๋ก $H_0$๋ฅผ reject ํด์ผ ํ๋ค๋ ๊ฒฐ๋ก ์ ์ ๋ํ๋ค.
๊ฐ์ธ์ ์ผ๋ก <p-value>๋ ๊ทธ ์๋ฏธ๊ฐ ์์ฃผ ํท๊ฐ๋ ค์ ์ฌ๋ฌ ์๋ฏธ์ ํด์์ ํจ๊ป ๋ณด๋ฉด ๋์์ด ๋ ๊ฒ ๊ฐ๋ค.
- $H_0$๋ฅผ reject ํ ์ ์๋ ๊ฐ์ฅ ์์ $\alpha$ ๊ฐ
- ๊ธฐ์กด ์ด๋ก $H_0$๊ฐ ๋ง๋ค๋ ๊ฐ์ ํ์, ์ป์ด์ง Test Statistic $X$๊ฐ ๋์ฌ ํ๋ฅ .
- ์ด ํ๋ฅ ์ด ๋ฎ๋ค๋ ๊ฒ์ ๊ธฐ์กด ์ด๋ก $H_0$๊ฐ ๋ง๋ค๋ ๊ฐ์ ์ด ํ๋ฆฐ ๊ฒ์ด ๋๋ค. (ํต๊ฒ์ ๊ท๋ฅ๋ฒ)
- ์คํ ๊ฒฐ๊ณผ๊ฐ ๊ธฐ์กด ์ด๋ก $H_0$์ ์๋ฆฝํ๋ ์ ๋๋ฅผ $[0, 1]$์ ์์น๋ก ํํํ ๊ฒ.
- <p-value> ๊ฐ์ด ์์์๋ก ๋ฐ์ดํฐ์ ๊ธฐ์กด ์ด๋ก $H_0$๋ ์๋ฆฝ ๋ถ๊ฐ๋ฅ
- ์ฐ์ฐ์ฑ์ ์ ๋
- <p-value>๊ฐ ๋ฎ์ ์๋ก, ์คํ ๊ฒฐ๊ณผ๊ฐ ์ฐ์ฐ์ด ์๋ ๊ฑฐ๋ผ๋ ๋ง
๋งบ์๋ง
์ด์ โํต๊ณ์ ๊ฒ์ (Statistical Test)โ๋ฅผ ์ํํ๊ธฐ ์ํด ํ์ํ ๊ธฐ๋ณธ์ ์ธ ๋ด์ฉ์ ๋ค ์ดํด๋ดค๋ค. ๋ค์ ํฌ์คํธ๋ถํฐ ์ํฉ์ ๋ฐ๋ผ ํต๊ณ์ ๊ฒ์ ์ ์ด๋ป๊ฒ ์ํํ๋์ง ์ดํด๋ณผ ์์ ์ด๋ค. ๊ทธ๋ ๊ฒ ์ด๋ ต์ง ์๊ณ , ์๊ตฌํ๋ ๊ฒ๋ค์ ์ ํ์ ํด์ ์์์ ๋ง๊ฒ ๊ณ์ฐํ๊ธฐ๋ง ํ๋ฉด ๋๋ค.
์ฐ๋ฆฌ๊ฐ ์ถ์ (Estimation)์์ ์ดํด๋ณธ ์์์ ๋์ผํ๊ฒ ๊ฒ์ (Testing)์ ์ดํด๋ณด์.