Proportion Test

“확률과 통계(MATH230)” 수업에서 배운 것과 공부한 것을 정리한 포스트입니다. 전체 포스트는 Probability and Statistics에서 확인하실 수 있습니다 🎲

May 26, 2021 4 minute read

“확률과 통계(MATH230)” 수업에서 배운 것과 공부한 것을 정리한 포스트입니다. 전체 포스트는 Probability and Statistics에서 확인하실 수 있습니다 🎲

Test on Proportion

Single Sample에서의 경우와 Two Sample에서의 경우를 모두 다룬다.

Test on One Proportion

Consider a p-coin, and $p$ is unknown.

We want to test

$H_0: p=1/3$
$H_1: p>1/3$

We toss a coin $n$ times independently, and let $x$ be the #. of heads in theses $n$ trials.

Q1. What is the p-value?

A1. $H_1$이 $p > 1/3$ 형태이므로 $x$가 특정값 $C$ 이상일 때, $H_0$를 reject 한다.

\[P( X \ge C \mid p = 1/3)\]

그래서 p-value는 $C$ 자리에 $x$를 대입해 p-value를 유도하면 된다!

\[P(X \ge x \mid p = 1/3) = \text{p-value}\]

Q2. 만약 $H_1: p < 1/3$ 형태라면?

A2. 위의 p-value 식에서 부호만 반대로 적어주면 된다.

\[P(X \le x \mid p = 1/3)\]

Q3. 만약 $H_1: p \ne 1/3$의 형태라면? (two-sided test)

A3. $X \le C_1$이거나 $X \ge C_2$일 때, $H_0$를 기각할 것이다. 따라서

\[P(X \le C_1 \;\; \text{or} \;\; X \ge C_2 \mid p = 1/3)\]

그런데 실험에서 하나의 $x$ 값만을 얻었고, 위의 과정에 따르면, 이 값을 $C$에 대입했다. 이것을 위 식에 적용하면,

\[P(X \le x \;\; \text{or} \;\; X \ge x \mid p = 1/3) = 1\]

가 되는데, 이 값은 1이다! 😲 보통 하나의 $x$ 값만 있기 때문에, one-side test를 수행하는게 합리적이다.

$X \le C_1$과 $X \ge C_2$ 중 어떤 방향을 취할지 결정하기 위해, expected value $E[X]$를 기준으로 삼자. 이 값은 $np$이다.

If $x < np$, take $X \le C_1$
If $x > np$, take $X \ge C_2$

만약 $x < np$라고, 가정하고 $X \le C_1$로 p-value를 구해야 한다. p-value는 아래와 같다. 양측 검정이기 때문에 $2$를 곱해준다.

\[2 \cdot P(X \le x \mid p = 1/3)\]

만약, $\alpha$ 값이 p-value 보다 크다면, $H_0$를 기각한다!

Test on Two Proportions

두 집합의 비율이 동일한지, 즉 $p_1 = p_2$를 검정하는 문제다. <Proportion Estimation>에서 한 것처럼 CLT를 적용해 Test Statistic을 구하면 아래와 같다.

\[\frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)}{\sqrt{\dfrac{p_1 q_1}{n_1} + \dfrac{p_2 q_2}{n_2}}} \sim N(0, 1)\]

만약 “두 집단의 proportion이 동일하다”는 가정이 참이라면, $p = p_1 = p_2$이므로 식을 다시 쓰면,

\[\frac{(\hat{p}_1 - \hat{p}_2)}{\sqrt{pq (1/n_1 + 1/n_2)}}\]

그런데, 우리는 population proportion이 $p_1 = p_2$ 라는 것만 알지 $p_1$, $p_2$의 값을 모른다. 그래서, <Proportion Estimation>에서 한 것처럼 sample proportion $\hat{p}$을 사용해야 한다!

그런데 sample proportion $\hat{p}_1$과 $\hat{p}_2$ 둘 중 뭘 써야할까? 둘을 종합한 pooled proportion $\hat{p}$을 사용하면 된다!

\[\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}\]

식을 다시 쓰면,

\[\frac{(\hat{p}_1 - \hat{p}_2)}{\sqrt{\hat{p}\hat{q} \left(1/n_1 + 1/n_2\right)}}\]

위의 공식을 통해 p-value를 구하고, p-value가 $\alpha$ 값보다 작다면, $H_0$를 기각한다!

맺음말

이어지는 포스트에서 <proportion test>을 일반화한 <Chi-square Goodness-of-fit test>를 살펴본다. <chi-square distribution> $\chi^2$를 사용해 검정을 수행하며, 이를 통해 표본의 독립(independence)와 동질성(homogeneity)에 대한 검정을 할 수 있다!

👉 Chi-square Goodness-of-fit test

Seokyun Ha (aka. bluehorn07)

Proportion Test

Test on Proportion

Test on One Proportion

Test on Two Proportions

맺음말

You may also enjoy

2026년 목표

Define Custom Kafka Source Connector

Define Custom Kafka Connect Transform

Deploy Debeizum Mysql Connector