Discrete Probability Distributions - 1
โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ ์์ ์์ ๋ฐฐ์ด ๊ฒ๊ณผ ๊ณต๋ถํ ๊ฒ์ ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ฒ
๋ช๋ช Distribution์ ๊ฒฝ์ฐ ํ์ค์ ๋ชจ์ฌํ๊ณ ์ ์ค๋ช ํ๊ธฐ ๋๋ฌธ์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋๋ค. ์ด๋ฒ ํฌ์คํธ์์ Discrete RV์์ ๋ณผ ์ ์๋ ์ ๋ช ํ Distributions์ ์ดํด๋ณธ๋ค. ๊ฐ Distribution์ด ๋ค๋ฅธ ๋ถํฌ์ ๋ํ Motivation์ด ๋๊ณ , ๊ฐ๊ฐ์ด ๋ชจ๋ ์ค์์ฑ์ ๊ฐ๊ธฐ ๋๋ฌธ์ ๊ทธ ์๋ฏธ๋ฅผ ๊ณฑ์น๊ณ , ์ถฉ๋ถํ ์ฐ์ตํด์ผ ํ๋ค.
Discrete Uniform Distributions
Discrete RV $X$์ ๋ํด ๊ฐ sample point $x$์ pmf $f(x)$์ ๊ฐ์ด ๋ชจ๋ ๋์ผํ ๊ฒฝ์ฐ๋ฅผ ๋ํํ๋ค.
Definition.
Let $X$ takes values $x_1, \dots, x_N$. We say that $X$ has a <discrete uniform disctribution> if
\[f(x) = P(X=x_i) = \frac{1}{N}\]<uniform distribution>์ ๊ฒฝ์ฐ, ํ๊ท ๊ณผ ๋ถ์ฐ์ ์๋์ ๊ฐ์ ๊ฐ๋๋ค.
- $E[X]= \dfrac{\sum x_i}{N}$
- $\text{Var}(X) = \dfrac{\sum x_i^2}{N} - \dfrac{(\sum x_i)^2}{N^2}$ // ๊ทธ๋ฅ (์ ํ-ํ์ ) ๊ณต์์ ์ฌ์ฉํ๋ค.
Bernoulli Distribution
<Bernolli Distribution>์ ๋์ ๋์ง๊ธฐ์ ๋ํ Distribution์ด๋ค. ์ข๋ ์ผ๋ฐํํด์ ๋งํ๋ฉด, Sample space์์ ๋จ ๋๊ฐ์ sample point๋ฅผ ๊ฐ์ง ๋, Bernoulli Distribution์ด๋ผ๊ณ ํ๋ค.
Definition.
(1) A <Bernoulli trial> is an experiment whose outcomes are only success or failure.
(2) A RV $X$ is said to have <Bernoulli Distributions> if its pmf is given by
\[f(x) = p^x \cdot (1-p)^{1-x}\]We denote it as
\[X \sim \text{Bernoulli}(p)\]์ฌ๊ธฐ์ ์ฃผ์ํ ์ ์ <Bernoulli Trial>์ ๋ฑ ํ๋ฒ๋ง ์ํํ๋ ๊ฒ์ด๋ค! Trial์ ์ฌ๋ฌ๋ฒ ํ๋ค๋ฉด, ๋ค์ ๋์ฌ <Binomial Distribution>์ด ๋๋ค.
Theorem.
If $X$ is a Bernoulli RV, then
- $\displaystyle E[X] = \sum x f(x) = 1 f(1) = p$
- $\displaystyle \text{Var}(X) = E[X^2] - (E[X])^2 = p - p^2 = p (1-p) = pq$
Binomial Distribution
<Bernoulli Trial>์ ๋์ ์ ๋ฑ ํ๋ฒ ๋์ง๋ ์ํ์ด์๋ค. ๋ง์ฝ ๋์ ์ $n$๋ฒ ๋งํผ ์ฌ๋ฌ๋ฒ ๋์ง๋ค๋ฉด, ๋ช๋ฒ ์ฑ๊ณต(success) ํ๋์ง ์ธ์ด ๋ณผ ์ ์๋ค. ๋ง์ฝ ์ฑ๊ณต์ ํ์๋ฅผ RV $X$๋ก ๋๋ค๋ฉด, ์ฐ๋ฆฌ๋ <Binomial Distribution>๋ผ๋ ์๋ก์ด ๋ถํฌ๋ฅผ ์ป๊ฒ ๋๋ค.
Definition.
When a RV $X$ has a pmf
\[f(x) = b(x;n, p) = \binom{n}{x} p^x q^{n-x}\]We call $X$ as a <binomial random variable> and denote it as
\[X \sim \text{Binomial}(n, p) \quad \text{or} \quad X \sim \text{BIN}(n, p)\]ํ์ธํ ์ ์ <Binomial Distribution>์ pmf $f(x)$๊ฐ ์ ๋ง๋ก pmf์ธ์ง์ด๋ค. ์ด๊ฒ์ ํ์ธํ๋ ค๋ฉด pmf $f(x)$์ ํฉ์ด 1์ด ๋จ์ ๋ณด์ด๋ฉด ๋๋ค. ์ด๊ฒ์ <์ดํญ ์ ๋ฆฌ Binomial Theorem>์ ํตํด ์ฝ๊ฒ ๋ณด์ผ ์ ์๋ค. ์ด ๋ถํฌ๊ฐ <Binomial>๋ผ๋ ์ด๋ฆ์ธ ์ด์ ๊ฐ ์ด๊ฒ ๋๋ฌธ์ด๋ค.
\[\sum_x f(x) = \sum^n_{k=0} \binom{n}{k} p^k (1-p)^{n-k} = \left(p + (1-p)\right)^n\]์ด๋ฒ์๋ <Binomial Distribution>์์์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ดํด๋ณด์.
- $\displaystyle E[X] = np$
- $\displaystyle \text{Var}(X) = npq$
๋จผ์ ํ๊ท $E[x]$๊ฐ $np$๊ฐ ๋๋ ์ด์ ๋ฅผ ์ํ์ ์ฆ๋ช ์์ด ์ค๋ช ํด๋ณด์. RV $X$๋ ์ ์ฒด ์ฑ๊ณต์ ํ์๋ฅผ ์๋ฏธํ๋ค. ์ด๊ฒ์ ๊ณง ๊ฐ๋ณ ์ํ $X_i$์ ๋ํด ์๋๊ฐ ์ฑ๋ฆฝํจ์ ๋งํ๋ค.
\[X = X_1 + X_2 + \cdots + X_n\]์ด๋, ๊ฐ๋ณ ์ํ $X_i$๊ฐ Bernoulli Distribution์ ๋ฐ๋ฅด๊ณ , ์๋ก๊ฐ ๋ ๋ฆฝ์ผ๋ฏ๋ก <expectation>์ Linearity์ ์ํด
\[E[X] = E[X_1 + \cdots + X_n] = E[X_1] + \cdots + E[X_n]\]์ข๋ ์๋ฐํ๊ฒ ์ฆ๋ช ํ๋ฉด ์๋์ ๊ฐ๋ค.
$\blacksquare$
๋ถ์ฐ $\text{Var}(X)$์ ์ฆ๋ช ํ๋ ๊ฑด ์กฐ๊ธ ์ฝ์ง ์๋ค. ์ฆ๋ช ์ Exercise๋ก ๋จ๊ธฐ์ง๋ง, ๋ฐ๋์ ์ง์ ์ฆ๋ช ํด๋ด์ผ ํ๋ ๋ช ์ ๋ค ๐
Multinomial Distribution
์ง๊ธ๊น์ง ๋ชจ๋ ๋์ ๋์ง๊ธฐ์์ ๋ณ์ฃผ๋ Distribution๋ค์ ์ดํด๋ดค๋ค. ๊ทธ๋ฌ๋ ํ์ค์์ ์/๋ค ๋ ๊ฒฐ๊ณผ๋ง ์์ง ์๋ฏ์ด <Outcome>์ด ์ฌ๋ฌ ๊ฐ์ธ ๊ฒฝ์ฐ์ ๋ถํฌ๋ ์๊ฐํด๋ณผ ์ ์๋ค! 6๋ฉด์ ์ฃผ์ฌ์ ๋์ง๊ธฐ๊ฐ ๊ทธ๋ฐ ๊ฒฝ์ฐ๋ค! ์ฐ๋ฆฌ๋ ์ด๊ฒ์ <Multinomial Distribution>๋ผ๊ณ ํ๋ค.
Definition.
The <multinomial experiment> consists of independent repeated $n$ trials and each trial results in $k$ possible outcomes $E_1, \dots, E_k$.
- $P(E_i) = p_i$ and $\displaystyle \sum^k_{i=1} p_i = 1$
Let $X_i$ be the number of $E_i$โs in $n$ trials, then
\[P(X_1=x_1, \cdots, X_k = x_k) = \frac{n!}{x_1! x_2! \cdots x_k!} \cdot p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k} \quad \text{where} \quad x_1 + \cdots + x_k = n\]<Multinomail distribution>์ pmf $f(x_1, \dots, x_k)$๋ ์ผ์ข ์ joint pmf๋ก ํด์ํ ์ ์๋ค. ๊ทธ๋์ <Multinomail distribution>์ ๋ํด ์๋์ margnial distribution๋ค์ ์๊ฐํด๋ณผ ์ ์๋ค.
- $X_k \sim \text{BIN}(n, p_k)$
- $X_i + X_j \sim \text{BIN}(n, p_i + p_j)$
์ด์ด์ง๋ ํฌ์คํธ์์ ์ข๋ ๋ณต์กํ ํํ์ ์ดํญ ๋ถํฌ๋ฅผ ๋ค๋ฃฌ๋ค. ๐คฉ
- Hypergeometric Distribution
- Geometric Distribution
- Negative Binomial Distribution
- Poisson Random Variable