Discrete Probability Distributions - 2
โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ ์์ ์์ ๋ฐฐ์ด ๊ฒ๊ณผ ๊ณต๋ถํ ๊ฒ์ ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ฒ
์ด์ ํฌ์คํธ์์ ์ด์ฐ ๋ถํฌ์ ๊ธฐ๋ณธ์ด ๋๋ <Bernoulli Distribution>, <Binomial Distribution> ๋ฑ๋ฑ์ ์ดํด๋ดค๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ข๋ ์ฌ๋ฏธ์๋ ๋ถํฌ๋ค์ด ๋ฑ์ฅํ๋ค!
HyperGeometric Distribution
<HyperGeometric Distribution>์ ์์์ ์ดํด๋ณธ <Binomial Distribution>๊ณผ ์ํฉ์ด ์ ๋ง ๋น์ทํ๋ค. ํ์ง๋ง, Sampling ๋ฐฉ์์์ <Binomial Distribution>์ ๊ฐ trial์ด ๋ ๋ฆฝ์ ์ด๊ณ , with replacement์ธ ๋ฐ๋ฉด์ <HyperGeometric Distribution>์ ๊ฐ trial์ด dependentํ๊ณ w/o replacement๋ก ์งํ๋๋ค!
w/o replacement ๋ฐฉ์์ผ๋ก ์ํ๋งํ๋ ๊ฒ์ ์์๋ <acceptance sampling>์ด ์๋ค. ๋ฌผํ์ ํ์ง์ ๊ฒ์ํ๋ ์ด ์์ ์ ํ ์คํ ํ์ ๋ฌผํ์ด ํ๊ดด๋๊ฑฐ๋ ๋์ด์ ์ฐ์ง ๋ชปํ๊ฒ ๋ ์ ์๊ธฐ ๋๋ฌธ์ replacement๋ฅผ ํ ์๊ฐ ์๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ w/o replacement๋ฅผ ๋ฐํ์ผ๋ก ํ๋ ์ํ๋ง์ ๋ํ ๋ ผ์๋ ๊ผญ ํ์ํ๋ค.
Definition. HyperGeometric Distribution
์ฑ๊ณต์ผ๋ก ํ์๋ $K$๊ฐ์ ์ํ๊ณผ ์คํจ๋ก ํ์๋ $N-K$๊ฐ์ ์ํ์ด ์๋ $N$๊ฐ์ ์ํ์์, ๋ฌด์์๋ก $n$๊ฐ์ ์ํ์ w/o replacement๋ก ๋ฝ๋๋ค๊ณ ํ์. ์ด๊ฒ์ <HyperGeometric Experiment>๋ผ๊ณ ํ๋ค. ์ด๋, RV $X$๋ <HyperGeometric Experiment>์์ ์ฑ๊ณต์ ๋ฝ์ ํ์์ด๋ค. ์ด RV $X$๋ฅผ <HyperGeometric RV>๋ผ๊ณ ํ๋ค.
<HyperGeometric RV> $X$์ pmf๋ ์๋์ ๊ฐ์ด ์ ์๋๋ค.
\[h(x; N, K, n) = \frac{\binom{K}{x} \binom{N-K}{n-x}}{\binom{N}{n}} \quad \text{where} \quad 0 \le x \le K \quad \text{and} \quad 0 \le n-x \le N-K\]์์ ๊ฐ์ pmf๋ฅผ <HyperGeometric Distribution>๋ผ๊ณ ํ๋ฉฐ, $X \sim \text{HyperGeo}(N, K, n)$๋ก ํ๊ธฐํ๋ค.
์ด๋, <HyperGeometric Distribution>์ ๋ํ ์กฐ๊ฑด์์ ๋ค๋ฌ์ผ๋ฉด ์๋์ ๊ฐ๋ค.
\[\begin{aligned} \quad 0 \le x \le K \quad &\text{and} \quad 0 \le n-x \le N-K \\ \quad 0 \le x \le K \quad &\text{and} \quad -n \le -x \le N-K-n \\ \quad 0 \le x \le K \quad &\text{and} \quad K+n - N \le x \le n \\ \end{aligned}\] \[\therefore \max \{ 0, n-(N-K) \} \le x \le \min \{ K, n \}\]Theorem.
Let $X \sim \text{HyperGeo}(N, K, n)$, then
- $\displaystyle E[X] = n \frac{K}{N}$
- $\displaystyle \text{Var}(X) = n \frac{K}{N}\left( 1 - \frac{K}{N} \right) \cdot \frac{N-n}{N-1}$
์ง๊ธ ๋น์ฅ <HyperGeometric Distribution>์ ๋ํ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๋ํ ์ ๋ฆฌ๋ฅผ ์ฆ๋ช ํ์ง๋ ์์ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์์ ์์ ์ข๋ ์ง๊ด์ ์ผ๋ก ์ดํดํด๋ณด๋ฉด, <Binomial Distribution>์ ๊ฒฝ์ฐ์ ์ ๋ง ์ ์ฌํจ์ ๋ฐ๊ฒฌํ ์ ์๋ค.
HyperGeo์ $\dfrac{K}{N}$๋ฅผ Binomial์ $p$๋ก ํด์ํ๋ค๋ฉด, Binomial์ ํ๊ท ์ธ $np$์ HpyerGeom์ $n\dfrac{K}{N}$๋ ๊ทธ ํํ๊ฐ ๊ฝค ๋น์ทํ๋ค. ๋ถ์ฐ์ ๊ฒฝ์ฐ์๋ HyperGeo์ ๊ฒฝ์ฐ $n \dfrac{K}{N}\left( 1 - \dfrac{K}{N} \right) \cdot \dfrac{N-n}{N-1}$๋ก Binomial์ ๊ฒฝ์ฐ์ฒ๋ผ $npq$์ ํํ๊ฐ ๋ณด์ด์ง๋ง, ๋ง์ง๋ง ๋ถ๋ถ์ $\dfrac{N-n}{N-1}$์ ๋ํ ํ ์ด ๋ถ๋๋ค.
Theorem.
ํน์ ๊ฒฝ์ฐ์์๋ HyperGeo๋ฅผ Binomial๋ก ์ทจ๊ธํ ์๋ ์๋ค.
If $N \gg n$ and $K \gg n$, then
\[h(x; N, K, n) \approx \text{BIN}(x; n, \frac{K}{N})\]์์ ์ ๋ฆฌ์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฆ๋ช ์ ๋ค์์ ๋ฐ๋ก ์ ์ํ๊ฒ ๋ค.
Multivariate HyperGeometric Distribution
<Multivariate HyperGeometric Distribution>์ HyperGeo์์ ๊ฐ๋ฅํ outcome์ด 2๊ฐ์์ ์ฌ๋ฌ ๊ฐ๋ก ๋์ด๋ ์ํฉ์ด๋ค. Multivariate HyperGeo์ pmf๋ ์๋์ ๊ฐ์ด ๊ธฐ์ ํ ์ ์๋ค.
Definition. Mutlivariate HyperGeometric Distribution
If $N$ items can be partitioned into the $k$ cells $A_1, A_2, \dots, A_k$ with $a_1, a_2, \dots, a_k$ elements, respectively, then the probability distribution of the RVs $X_1, X_2, \dots, X_k$, representing the number of elements selected from $A_1, A_2, \dots, A_k$ in a random sample of size $n$, is
\[f(x_1, \dots, x_k\; ; \; a_1, \dots, a_k, N, n) = \frac{\binom{a_1}{x_1} \cdots \binom{a_k}{x_k}}{\binom{N}{n}}\]with $\displaystyle \sum^k_{i=1} x_i = n$ and $\displaystyle \sum^k_{i=1} a_i = N$.
Geometric Distribution
<Geometric Distribution>์ ๊ฒฝ์ฐ๋ ์์์ ์ ์๋ Distribution๋ค๊ณผ ์กฐ๊ธ ์ํฉ์ด ๋ค๋ฅด๋ค.
Definition. Geometric Distribution
$p$-coin์ ๋ ๋ฆฝ์ ์ผ๋ก tossing ํ๋ ์ํฉ์ ์๊ฐํด๋ณด์. ์ด๋, ์ฐ๋ฆฌ๋ ์ฒ์์ผ๋ก Head๊ฐ ๋์ฌ ๋๊น์ง $p$-coin์ ๋์ง ๊ฒ์ด๋ค. ์ด๋, ์ฒซ Head๊ฐ ๋์ค๊ธฐ๊น์ง ์๋ํ Tossing ํ์๋ฅผ Random Variable $X$๋ผ๊ณ ํ๋ฉด, ์ด๊ฒ์ pmf๋ ์๋์ ๊ฐ๋ค.
\[g(x; p) = pq^{x-1}, \quad x = 1, 2, 3, \dots\]์ด RV $X$๋ฅผ <Geometric RV>๋ผ๊ณ ํ๋ฉฐ, $X \sim \text{Geo}(p)$๋ก ํ๊ธฐํ๋ค.
์ฌ๊ธฐ์ ์ <Geometric Distribution>์ โGeometricโ์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ์๋์ง ๊ถ๊ธ์ฆ์ด ์๊ธด๋ค. ๊ทธ ์ด์ ๋ Geo์์ ํ๋ฅ ์ ๅ์ด 1์ด ๋จ์ ํ์ธํ๋ฉด์ ์ ์ ์๋ค.
\[\begin{aligned} \sum_x g(x) &= \sum^{\infty}_x p \dot q^{x-1}\\ &= p \; (1 + q + q^2 + \cdots + q^n + \cdots ) \\ &= \lim_{n \rightarrow \infty} p \; \frac{1-q^n}{1-q} = \frac{p}{1-q} = \frac{p}{p} = 1 \end{aligned}\]์์ ๊ฐ์ด ํ๋ฅ ๅ์ด 1์ด ๋จ์ ๋ณด์ด๋ ๊ณผ์ ์์ โGeometric Seriesโ๊ฐ ๋ฑ์ฅํ๊ธฐ ๋๋ฌธ์ โGeometricโ Distribution์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ์๋ค!!
Property. Memeryless property ๐ฅ
<Geometric Distribution>์ <Memoryless Property>๋ผ๋ ์ฌ๋ฏธ์๋ ์ฑ์ง์ ๊ฐ์ง๊ณ ์๋ค. ์์์ผ๋ก ๊ธฐ์ ํ๋ฉด ์๋์ ๊ฐ๋ค.
\[P(X = x+k \mid x > k) = P(X = x)\]๋๋
\[P(X > k) = q^{k}\]๋๋ฒ์งธ ์์ ์ ์ฌ์ฉํด๋ณด๋ฉด, ์ฒซ๋ฒ์งธ ์์ ์ฝ๊ฒ ์ ๋ํ ์ ์๋ค ๐
Theorem.
Let $X \sim \text{Geo}(p)$, then
- $\displaystyle E[X] = \frac{1}{p}$
- $\displaystyle \text{Var}(X) = \frac{1-p}{p^2}$
์์ ์์ ๋ํ ์ฆ๋ช ์ ๊ฐ๋จํ๋ค. ์ง๊ธ ์ ๋ํด๋ณด์.
ํผ์ณ๋ณด๊ธฐ
Proof.
1. $E[X]$
\[\begin{aligned} E[X] &= \sum k f(k) = p \sum^{\infty}_{k=1} k q^{k-1} \\ &= p \; (1 + 2q + 3q^2 + \cdots ) \\ \end{aligned}\](1) ๋ฉฑ๊ธ์๋ก ์ ๋
\[\begin{aligned} S &= (1 + 2q + 3q^2 + \cdots ) \\ qS &= (0 + q + 2q^2 + \cdots) \\ (1-q)S &= 1 \\ (1-q)S &= \frac{1}{1-q} \\ S &= \frac{1}{(1-q)^2} \\ \end{aligned}\](2) ๋ฏธ๋ถ์ผ๋ก ์ ๋
\[\begin{aligned} S &= (1 + 2q + 3q^2 + \cdots ) \\ &= (1 + q + q^2 + \cdots) ' \\ &= \left( \frac{1}{1-q} \right)' \\ &= \frac{1}{(1-q)^2} \end{aligned}\]๋ฐ๋ผ์, $\displaystyle E[X] = p S = p \frac{1}{(1-q)^2} = \frac{p}{p^2} = \frac{1}{p}$
2. $\text{Var}(X)$
$\text{Var}(X)$๋ฅผ ๊ตฌํ๊ธฐ ์ํด $E[X^2]$๋ฅผ ๊ตฌํด์ผ ํ๋ค. ์ด๋, ๊ณ์ฐ์ ํธ์๋ฅผ ์ํด $E[X^2]$ ๋์ $E[X(X-1)]$๋ฅผ ๊ตฌํ๋ ํ ํฌ๋์ ์ฌ์ฉํ์.
\[\begin{aligned} E[X(X-1)] &= p \sum k(k-1)q^{k-1} \\ &= pq \sum^{\infty}_{i=2} k(k-1) q^{k-2} \\ &= pq \left( \frac{1}{(1-q)^2} \right)' \\ &= pq \left( \frac{2}{(1-q)^3}\right) \\ &= pq \frac{2}{p^3} = \frac{2q}{p^2} \end{aligned}\]์ด์ ์์ ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํด์ ์ ์ ๋ฆฌํ๋ฉด,
\[\begin{aligned} \text{Var}(X) &= E[X(X-1)] + E[X] - \left(E[X]\right)^2 \\ &= \frac{2q}{p^2} + \frac{1}{p} - \frac{1}{p^2} \\ &= \frac{1-p}{p^2} \end{aligned}\]Negative Binomial Distribution
์ด๋ฒ์๋ <Geometric Distribution>๊ณผ ๋น์ทํ์ง๋ง, $k$๊ฐ์ Head๊ฐ ๋์ฌ ๋๊น์ง ๋์ ์ ๋์ง๋ค. ์ด๋ Tossing ํ์๋ฅผ Random Variable $X$๋ผ๊ณ ํ๋ฉด, ์ด๊ฒ์ <Negative Binomial Distribution>์ ๋ฐ๋ฅธ๋ค.
Definition. Negative Binomial Distribution
$p$-coin์ independently tossing ํ๋ค๊ณ ํด๋ณด์. ์ด๋ $k$๊ฐ Head๊ฐ ๋์ฌ ๋๊น์ง ๋์ ์ ๋์ง ํ์๋ฅผ RV $X$๋ก ์ก์. ๊ทธ๋ฌ๋ฉด ์ด๊ฒ์ pmf๋ ์๋์ ๊ฐ๋ค.
\[b^{*}(x; k,p) =\binom{x-1}{k-1} p^k q^{x-k} \quad \text{for} \quad x = k, k+1, \dots\]์ด๊ฒ์ ์ ๋๋ $(x-1)$ ์๋๊น์ง $(k-1)$๋ฒ ๋งํผ์ Head๊ฐ ๋์์ผ ํ๋ค๊ณ ์๊ฐํ๋ฉด, <Binomial Distribution>์์ $(x-1)$ ์๋, $(k-1)$๋งํผ ์ฑ๊ณตํ ๊ฒ๊ณผ ๊ฐ๋ค.
\[\binom{x-1}{k-1} p^{k-1} q^{x-k}\]๋ง์ง๋ง์๋ ๋ฐ๋์ Head๊ฐ ๋์์ผ ํ๋ฏ๋ก ์์ ์์ $p$๋ฅผ ๊ณฑํด์ฃผ๋ฉด, <Negative Binomial Distribution>์ ์ป๊ฒ ๋๋ค!
Negative Binomial์ ์๋ก ๋ ๋ฆฝ์ธ $n$๊ฐ์ Geometric RV๋ผ๊ณ ์๊ฐํด๋ณผ ์๋ ์๋ค. ๊ทธ๋์ NegBIN $Y$๋ Geo $X_i$์ ๋ํด
\[Y = X_1 + \cdots X_n\]์ธ ์ ์ด๋ค.
๊ทธ๋ฐ๋ฐ ์ โNegativeโ Binomial์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ์์๊น? ๊ทธ๊ฒ์ <Geometric Distribution> ๋์ ๋ง์ฐฌ๊ฐ์ง๋ก ํ๋ฅ ์ ๅ์ด 1์ด ๋จ์ ๋ณด์ด๋ ๊ณผ์ ์์ ์ ๋ํ๋ค.
์ฌ๊ธฐ์์ $y = x - k$๋ก ์นํํ์. ์ด๋, $y$๋ $k$๋ฒ์งธ ์ฑ๊ณต์ ์ป๊ธฐ ์ํด ๊ฑธ๋ฆฐ ์คํจ ํ์ $Y$์ด๋ค. ํ๊ธฐ์ ํธ์๋ฅผ ์ํด ์ง๊ธ๋ถํฐ๋ ๋ฉฑ๊ธ์ ๋ถ๋ถ๋ง ํํํ๊ฒ ๋ค.
\[\sum^{\infty}_{x=k} \binom{x-1}{k-1} q^{x-k} = \sum^{\infty}_{y=0} \binom{y + k - 1}{k-1} q^{y}\]์ด๋, ์กฐํฉ(combination)์ ์ฑ์ง์ ์ํด ์๋๊ฐ ์ฑ๋ฆฝํ๋ค.
\[\binom{y + k - 1}{k-1} = \binom{y + k - 1}{y}\]๋ฐ๋ผ์,
\[\sum^{\infty}_{y=0} \binom{x-1}{k-1} q^{x-k} = \sum^{\infty}_{y=0} \binom{k + y - 1}{y} q^{y}\]์ฌ๊ธฐ์ <Negative Binomial Theorem>์ ์ ์ฉํด๋ณด์.
\[(1 + x)^{-n} = \sum^{\infty}_{k = 0} \binom{-n}{k} x^k = \sum^{\infty}_{k = 0} \binom{n + k - 1}{k} (-1)^k x^k\]์์ ์ ๋ฆฌ์์ $x$์ $-q$๋ฅผ ๋์ ํ๋ฉด,
\[\sum^{\infty}_{y=0} \binom{k + y - 1}{y} q^{y} = (1 - q)^{-k}\]์์ ์ ๋ฆฌํ๋ฉด,
\[\begin{aligned} \sum f(x) &= \sum^{\infty}_{x=k} \binom{x-1}{k-1} p^k q^{x-k} \\ &= p^k \sum^{\infty}_{x=k} \binom{x-1}{k-1} q^{x-k} \\ & p^k \sum^{\infty}_{y=0} \binom{k + y - 1}{y} q^{y} \\ &= p^k \cdot (1 - q)^{-k} \\ &= p^k \cdot p^{-k} \\ &= 1 \end{aligned}\]$\blacksquare$
์ฆ, ์ ๋ ๊ณผ์ ์์ Negative Binomial์ด ๋ฑ์ฅํ๊ธฐ ๋๋ฌธ์ ์ง๊ธ์ Negative Binomial์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ์๋ค.
Theorem.
If $X \sim \text{Neg BIN}(k, p)$, then
- $\displaystyle E[X] = \frac{1}{p}k$
- $\displaystyle \text{Var}(X) = \left(\frac{1-p}{p^2}\right) k$
์์ ๊ฒฐ๊ณผ๋ฅผ ์ ์ดํด๋ณด๋ฉด, Geometric Distribution๊ณผ ์ฐ๊ด์ฑ์ ์ฐพ์ ์ ์๋ค. Geo์์๋ ํ๊ท ์ด $E[X] = \dfrac{1}{p}$์๋๋ฐ, NegBIN๋ฅผ $k$๊ฐ์ Geo๊ฐ ๋ชจ์ธ ๊ฒ์ผ๋ก ํด์ํ๋ค๋ฉด, Geo์ ํ๊ท $\dfrac{1}{p}$๊ฐ $k$๊ฐ ๋ชจ์ธ ์ ์ด๋ $\dfrac{1}{p}k$๊ฐ ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ๋ถ์ฐ์ ๋ํด์๋ ๋์ผํ ์๊ฐ์ผ๋ก ์ ๊ทผํด๋ณผ ์ ์๋ค. ๐
์ด์ด์ง๋ ํฌ์คํธ์์๋ <Poisson Distribution>๋ผ๋ ์ด์ฐ ํ๋ฅ ๋ถํฌ์ ๋ณด์ค๊ฐ ๋ฑ์ฅํ๋ค!! Poisson์ ์๋นํ ์ค์ํ๋ ๋์ฌ๊ฒจ ์ดํด๋ณด๋๋ก ํ์!
๐ Poisson Distribution