Degree of Freedom in Statistics
ํต๊ณํ์ ๊ณต๋ถํ๋ฉด์ ๋ค์๋ ์๋ฌธ๊ณผ ์๊ฐ๋ค์ ์์ธ์ด๋ก ์ ์ด๋ณด์์ต๋๋ค ๐ ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค๐ฒ
์ด๋ฒ ํฌ์คํธ๋ ํต๊ณํ์์ ๋์ค๋ โ์์ ๋(Degree of Freedom)โ์ โ์ ํต๊ณํ์์ DOF๋ฅผ $n-1$๋ก ์ค์ ํ๋์งโ์ ๋ํ ์๊ฐ์ ๋ค๋ฃน๋๋ค. ๐
ํต๊ณํ์์ ์์ ๋(Degree of Freedom)๋?
ํต๊ณํ์์ <์์ ๋; Degree of Freedom>๋ ์๋์ ์๋ฏธ๋ก ํตํ๋ค.
Definition. Degree of Freedom
The number of independent variates which make up the statistic.
์ฆ, <ํต๊ณ๋(Statistic)>์ ์ ์ํ๊ธฐ ์ํ ๋ ๋ฆฝ ๋ณ๋(variate)์ ์๊ฐ <์์ ๋; DOF>์ธ ์ ์ด๋ค. ๋๋ โTotal number of observationsโ๋ผ๊ณ ๋ ํ๋ค.
์ฌ๊ธฐ์ ์ ์ฝ(constraint)์ ํฌํจํ ์ ํํ ์ ์๋ ์๋์ ๊ฐ๋ค.
Definition. Degree of Freedom
์ฆ, ์ด๋ค <Statistic>์ ์์ ๋๋ ๋ ๋ฆฝ ๋ณ๋์ ์์์ ์ ์ฝ์ ์๋ฅผ ๋บธ ๊ฐ์ด๋ค! ๐
์ ์ด๋ฐ ์ค๋ช ์ด ๋์ค๊ฒ ๋์๋์ง ์ข๋ ์ดํด๋ณด์.
ํฌํญ๊ณต๋์ ํํต ๊ธฐ๋ง๊ณ ์ฌ๋ ๊ณผ๋ชฉ ํ๊ท ์ด $80$์ ์ด ๋์ด์ผ ํ๋ค๋ ๊ท์น์ด ์๋ค.
์ด๋ฒ ํ๊ธฐ ํํต์ ๋ฃ๋ ํ์์ ์ด 5๋ช ์ด๋ค. ๋๋จธ๋ฆฌ ๊ต์ ๋ธํผ์ ํ์ 4๋ช ์ ๊ธฐ๋ง๊ณ ์ฌ ์ํ์ง๋ฅผ ์ฑ์ ํ๋ค.
์ด๋ผ? ๊ทธ๋ฐ๋ฐ ๋ค๋ฆ๊ฒ ๊ณผ๋ชฉ ํ๊ท $80$์ ์ ๋ง์ถฐ์ผ ํ๋ค๋ ์ฌ์ค์ด ๊ธฐ์ต์ด ๋ ๋ธํผ ๊ต์๋ ๋จ์ ํ์ ํ ๋ช ์ ์ ์๋ฅผ $80$์ด ๋๋๋ก ๋ฐ.๋.์ ๋ง์ถฐ์ผ ํ๋ค!
๋ธํผ ๊ต์๋ ์ด์ฉ ์ ์์ด ๋ง์ง๋ง ํ์์ ์ ์๋ฅผ $400$์ ์ ์ฃผ๊ณ ๋ง์๋ค! 4๋ช
์ด ๋นต์ ์ด์๋คโฆ
์์ ์ํฉ์์ $5$๋ช ์ ํ์์ ์ํ์ ์๋ผ๋ $5$๊ฐ์ Variates๊ฐ ์์ง๋ง, ๊ณผ๋ชฉ ํ๊ท $80$์ ์ด๋ผ๋ Constraint๊ฐ ํ๋ ์๊ธฐ ๋๋ฌธ์ ์ค์ง $4$์ DOF๋ง ๊ฐ๋ฅํ๋ค. ์ฆ, ์ ์ฝ(Constraint)์ด <Statistic>์ ์์ ๋๋ฅผ ๋ฎ์ถ๋ ๊ฒ์ด๋ค!
ํ๋ฅ ๋ถํฌ์ ์์ ๋
์์์ ์์ ๋๋ ํต๊ณ๋(Statistic)์ ๋ํด์ ์ ์๋๋ ๊ฒ์ด๋ผ๊ณ ๋งํ๋ค. ๊ทธ๋ฐ๋ฐ ์ ํ๋ฅ ๋ถํฌ์ ์์ ๋๋ผ๋ ๊ฐ๋
์ด ์กด์ฌํ๋ ๊ฒ์ผ๊น? ์ด๊ฒ์ ๋ํ ๋๋ต์ ํ๋ฅ ๋ถํฌ์์ DOF๋ ๋จ์ํ ํจ์ ๊ฐํ์ ๊ฒฐ์ ํ๋ ์ธ์์ ๋ถ๊ณผํ๋ค. ์ฐ๋ฆฌ๊ฐ ์๋ DOF๋ ๋ชจ๋ Positive Integer์ด๋ค. ๊ทธ๋ฌ๋ ํ๋ฅ ๋ถํฌ์ DOF๋ ์ด๋ค ๊ฐ์ด๋ ๋ฃ์ด๋ ์๊ด์๋ค! ์ฌ์ง์ด $\pi$ ๊ฐ์ ๊ฐ์ DOF๋ก ๋ฃ์ด๋ ๋๋ค! ์๋ฌด ์๋ฏธ๋ ์์ง๋ง
์์ ๋๋ฅผ ์ธ์๋ก ๋ฐ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ดํด๋ณด์.
\[\chi^2(n) = \text{Gamma}\left(\frac{n}{2}, 2\right)\] \[T := \frac{Z}{\sqrt{V / n}} \quad (Z \sim N(0, 1), V \sim \chi^2(n), Z \perp V)\] \[F := \frac{V_1^2 / \sigma_1^2}{V_2^2 / \sigma_2^2} = F(n_1, n_2) \quad (V_1 \sim \chi^2(n_1), V_2 \sim \chi^2(n_2))\]ํต๊ณ๋๊ณผ ์์ ๋
์์ ๋ ๊ฐ๋ ์ ๋ณธ์ง์ธ ํต๊ณ๋(Statistic)์ผ๋ก ๋์์ค์.
์์ ๋๋ฅผ ๊ฐ๋ ์ ํต๊ณ๋(Statistic)์์ ์กด์ฌํ๋ ๊ฐ๋ ์ด๊ณ , ํต๊ณ๋์ ํต๊ณ์ ์คํ(Statistics Experiment)์์ ๋ฑ์ฅํ๋ค. ํต๊ณ๋์ ๋ํ์ ์ธ ์๊ฐ sample variance $s^2$์ด๋ค.
\[s^2 = \frac{1}{n-1} \sum_i^n \left( x_i - \bar{x} \right)^2\]์ด๋ค ํต๊ณ๋(Statistic)๋ค์ ์์ ๋์ ๊ฐ๋ ์ ๊ฐ์ง๊ณ ์๋ค. ์์์ ๋์จ 3๊ฐ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ ์๋ค: โchi-square valueโ, t-valueโ, โf-valueโ์ ์์ ๋๋ฅผ ๊ฐ์ง๋ค. ๊ฐ๊ฐ์ ์ถ์ (Estimation)๊ณผ ๊ฒ์ (Test)์์ ํ์ฉ๋๋ค.
\[\begin{aligned} \chi^2 &:= \sum_{i=1}^k \frac{(o_i - e_i)^2}{e_i} \\ t &:= \frac{\bar{x} - \mu}{s / \sqrt{n - 1}} \\ f &:= \frac{s_1^2 / \sigma_1^2}{s_2^2 / \sigma_2^2} \end{aligned}\]์๋ ๊ทธ๋์ ์์ ๋(DOF)๋ ๋๋์ฒด ๋ฌด์์ธ๊ฐ? ์ด๊ฑธ ์ด๋ป๊ฒ ํด์ํ๊ณ , ์ด๋ป๊ฒ ๋ฐ์๋ค์ด์ผ ํ๋๊ฐ? ๐ค
\[s^2 = \frac{1}{n-1} \sum_i^n \left( x_i - \bar{x} \right)^2\]Sample Variance $S^2$์์ ์ ๋ถ๋ชจ์ $n$ ๋์ $n-1$์ด ๋ค์ด๊ฐ๋์ง ๊ธฐ์ตํ๋๊ฐ? Sample Variance์ ๋ํด ๋ค๋ค๋ ํฌ์คํธ์์ $E[S^2] = \sigma^2$๊ฐ ๋๊ธฐ ์ํด์๋ผ๊ณ ์์์ผ๋ก ์ค๋ช ํ๋ค. ์์ ๋๋ฅผ ๊ฒ๋ค์ธ ์ง๊ด์ ์ธ ์ค๋ช ์ โSample Variance์ ์์ ๋๊ฐ $n-1$์ด๊ธฐ ๋๋ฌธโ๋ผ๊ณ ํ ์ ์๋ค.
ํต๊ณ๋(Statistic)์ ์ ์ํ๋ ์ด์ ๋ ์ฌ๋ฌ ์ํ์์ ์ถ์ถํ ๊ฐ๋ค์ ์ข ํฉํด ๊ทธ๊ฒ๋ค์ ๋ํํ๋ ํ๋์ ๊ฐ์ ๋ง๋ค๊ธฐ ์ํด์๋ค. ์ด๋, ํต๊ณ๋(Statistic)์ ํจ๊ป ๋ฐ๋ผ์ค๋ DOF๋ ๊ทธ ๋ํ๊ฐ์ ์ค์ง์ ์ผ๋ก ์ผ๋งํผ์ ๋ ๋ฆฝ์ ์ธ ์์๊ฐ ์๋์ง๋ฅผ ํํํ๋ค: โHow many numbers in your statistic are actually independent.โ
๋ค์ Sample Variance $S^2$์ ๊ฒฝ์ฐ๋ฅผ ๋ณด์. $S^2$๋ $n$๊ฐ Sample๋ก๋ถํฐ ์ ๋๋๋ ๊ฐ์ด๋ค. ๊ทธ๋ฌ๋ Sample Mean $\bar{X}$์ ๊ฐ์ด $\bar{x}$๋ก ์ ํด์ ธ ์๋ค๋ฉด, ์ด๊ฒ์ ํต๊ณ๋ Sample Variance๋ฅผ ๊ตฌํ๋ ๋ฐ์ ์ ์ฝ(Constraint)๊ฐ ๋๋ค. $n-1$ Sample์ ๊ฐ์ด ์ ํด์ง ์ดํ์ ๋ง์ง๋ง ํ Sample์ ๊ฐ์ด ๊ณ ์ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์ฒ์์ ์ดํด๋ณธ DOF์ ๋ํ ์์์ ๋ฐ๋ผ $S^2$์ ์์ ๋๋
\[\begin{aligned} \text{DOF} &= (\text{# of independent variates}) - (\text{# of constraints}) \\ &= n - 1 \end{aligned}\]์ด๋ ๋ฏ Sampling Statistic ์ค์์ ํต๊ณ๋์ ์ ๋ํ๋๋ฐ ์ฐ์ธ Sample ์ $n$๊ณผ ํต๊ณ๋์ด ๊ฐ๋ ์ค์ independent variability๊ฐ ๋ค๋ฅผ ์ ์๋ค.
์ํฉ๋ณ๋ก ์ดํด๋ณด๋ฉด,
- Single Sample
- $n$ observations & $1$ constraint: the mean โ $n - 1$ variability
- Two Samples
- $n_1 + n_2$ oberservations & $2$ constraints: each mean โ $n_1+ n_2 - 2$ variability
์ฌ๊ธฐ์ ๊น์ง ์ง๋ฌธ! z-value๋ ์ ์์ ๋ ๊ฐ๋ ์ด ์์๊น? ๐ค
\[z := \frac{\bar{x} - \mu}{\sigma / \sqrt{n}}\]๊ทธ ์ด์ ๋ ์ ์ด์ z-value๊ฐ ๋ฐ๋ฅด๋ ๋ถํฌ์ธ Normal Distribution์ด sample size $n$์ ์์กดํ์ง ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ฉด์ z-value์์ population variance $\sigma^2$๊ฐ sample variance $s^2$๋ก ๋ฐ๋ t-value๋ ์์ ๋ $n-1$๋ฅผ ๊ฐ๋๋ฐ,
\[t := \frac{\bar{x} - \mu}{s / \sqrt{n - 1}}\]์ด๊ฒ์ t-value ์์ฒด๊ฐ ์์ ๋ ๊ฐ๋ ์ด ์๋ t-distribution์ ๋ฐ๋ฅด๊ธฐ ๋๋ฌธ์ด๊ธฐ๋ ํ๊ณ , ๋ถ๋ชจ์ ์ฌ์ฉํ sample variance $s^2$๊ฐ sample size $n$์ ์์กดํ๋ ํต๊ณ๋(Statistic)์ด๊ธฐ ๋๋ฌธ์ด๊ธฐ๋ ํ๋ค.
๋งบ์๋ง
์ด ๊ธ์ ์์ฑํ๊ธฐ ์ ์๋ ๋ฌด์ง์ฑ์ผ๋ก Sample Size $n$์ $-1$ํ ๊ฐ์ ์ฌ์ฉํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ฒ์ ๋ด์ฉ์ ์ ๋ฆฌํ๋ฉด์, ์์ ๋(DOF)๊ฐ ๋๋์ฒด ๋ฌด์จ ์๋ฏธ์ธ์ง, ๊ทธ๋ฆฌ๊ณ ์ $-1$์ ๋นผ์ค ์ ๋ฐ์ ์๋์ง๋ฅผ ์ดํดํ ์ ์์๋ค. ๐
์์ ๋(DOF) ๊ฐ๋ ์ด ์ค์ํ ์์ญ์ ์ถ์ (Estimation)๊ณผ ๊ฒ์ (Test)์ด๋ค. Sample Statistic์ ์์ ๋์ ๋ฐ๋ผ ์ถ์ ์์ <significance>๊ฐ ๊ฒ์ ์์ <p-value>๊ฐ ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
์์ ๋ ๊ฐ๋ ์ด ์๋ ๋ํ์ ์ธ ์ถ์ ๊ณผ ๊ฒ์ ์ ์์๋ค์ด๋ค.