Partial Correlation
Introduction
Partial Covariance/Correlation๋ ์ฌ๋ฌ ๊ฐ์ ๋ ๋ฆฝ๋ณ์(IV)์ ํ๋์ ์ข ์๋ณ์(DV)๊ฐ ์๋ ์ํฉ์์ ๋ฑ์ฅํ๋ ๊ฐ๋ ์ด๋ค.
์ฐ๋ฆฌ๋ ๋ ๋ฆฝ๋ณ์๋ฅผ ํ๋๋ฅผ ์ก๊ณ , ๊ทธ ๋ ์๊ณผ ์ข ์๋ณ์์ Covariance๋ฅผ ๊ณ์ฐํ ์ ์๋ค. ๋ง์ฝ์ ์กด์ฌํ๋ ๋ ๋ฆฝ๋ณ์๋ค ์ฌ์ด์ ์๊ด๊ด๊ณ๊ฐ ์๋ค๋ฉด, ์ํฉ์ ์์ฃผ ๊ฐ๋จํ๋ค. ๊ทธ๋ฅ $\text{Cor}(\text{IV}, \text{DV})$๊ฐ ๊ฐ์ฅ ๋์ ๋ ๋ฆฝ๋ณ์ ํ๋๋ฅผ ์ฐพ์ผ๋ฉด ๋๋ค. ๋, $r = \text{Cor}(\text{IV}, \text{DV})$๋ $\left[-1, +1 \right]$์ ๋ถํธ๊ฐ ์๊ธฐ ๋๋ฌธ์, ์ ๊ณฑํด์ ์ป์ $r^2$ ๊ฐ์ผ๋ก ๊ทธ ๋ ๋ฆฝ๋ณ์์ ์ค๋ช ๋ ฅ๋ ํ์ธํ ์ ์๋ค.
๊ทธ๋ฌ๋ ๋ ๋ฆฝ๋ณ์๋ค ์ฌ์ด์ ์๊ด๊ด๊ณ๊ฐ ์๋ค๋ฉด, ์ํฉ์ด ๋ณต์กํด์ง๋ค. ์๋ฅผ ๋ค์ด $\text{IV}_a \rightarrow \text{DV}$๋ผ๊ณ ํด๋ณด์. ๊ทธ๋ฐ๋ฐ ๋ค๋ฅธ ๋ ๋ฆฝ๋ณ์ $\text{IV}_b$์ ๋ํด $\text{IV}_b \rightarrow \text{IV}_a$ ๊ฒ์ด ๋ฐํ์ก๋ค. ๊ทธ๋ ๋ค๋ฉด, $\text{IV}_a \rightarrow \text{DV}$๋ ์ฌ์ค $\text{IV}_b \rightarrow \text{DV}$๋ผ๊ณ ๋งํ ์ ์๋ค.
์ ๋ ๋ฆฝ๋ณ์ ๊ฐ์ ์๊ด์ฑ์ด ๋ฌธ์ ๊ฐ ๋๋๊ฐ?
๋ ๋ฆฝ๋ณ์ ๊ฐ์ ์๊ด์ฑ์ด ์๋ ์ํฉ์ ์ ๋ฌธ์ ๊ฐ ๋๋ ๊ฑธ๊น?๐ค $\text{Cor}(\text{IV}_a, \text{DV})$์ ๊ฐ์ ๊ณ์ฐํ๋ค๊ณ ํด๋ณด์. ๊ทธ๋ฐ๋ฐ ์ด๊ฒ์ด $\text{IV}_a$ ๋จ๋ ์ ์์ํ ํจ๊ณผ์ผ๊น? ์๋๋ฉด $\text{IV}_a$์ ์๊ด์ฑ์ด ์๋ $\text{IV}_b$์ ํจ๊ณผ๊ฐ ์ผ๋ถ ๋ฐ์๋ ๊ฒฐ๊ณผ์ผ๊น?
์คํ์๋ ๋ ๋ฆฝ๋ณ์ $\text{IV}_a$ ํ๋๋ง์ ์ปจํธ๋กค ํ ์ ์์ด $\text{IV}_a$ ๋จ๋ ์ ์ํฅ๋ ฅ์ ์๋ ๊ฒ์ด ์ค์ํ ์ํฉ์ธ ๊ฑธ ์๋ ์๋ค. ๊ฒฐ๊ตญ ๋ ๋ฆฝ๋ณ์ ๋จ๋ ์ ์ํฅ๋ ฅ/์ค๋ช ๋ ฅ์ ์๊ณ ์ถ๋ค๋ฉด, $\text{Cor}(\text{IV}_a, \text{DV})$ ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค.
๋จ์ผ ๋ ๋ฆฝ๋ณ์๋ก Regression Problem์ ํธ๋ ์ํฉ์์๋ ๋ ๋ฆฝ๋ณ์๊ฐ ํ๋์ด๋ ๋ณ ์๊ด์ด ์์ง๋ง, 2๊ฐ ์ด์์ ๋ ๋ฆฝ๋ณ์๊ฐ ์๋ Multiple Regression Problem์์๋ ์ด๋ฐ ๋ ๋ฆฝ๋ณ์ ๋จ๋ ์ ์๊ด์ฑ์ ์๋๊ฒ ์ค์ํ๋ค.
Partial Correlation
Partial Correlation์ ๋ค๋ฅธ ๋ณ์์ ํจ๊ณผ๋ฅผ ๋ฐฐ์ ํ๋ฉด์, ๋ ๋ณ์ ์ฌ์ด์ Correlation์ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๋ค. ์ด๋ ๊ฒ ๋ค๋ฅธ ๋ณ์์ ํจ๊ณผ๋ฅผ ๋ฐฐ์ ํ๋ ๊ฒ์ โPartialling Outโ์ด๋ผ๊ณ ํ๋ค.
Partial Correlation์ ํํ๊ณผ ์ฑ์ง๋ถํฐ ์ดํด๋ณด์.
Partial Correlation์ $\rho$(rho)๋ก ํํํ๋ค. ๋ ๋๋ค๋ณ์ $X$, $Y$์ ๋ํด ๋ค๋ฅธ ๋๋ค๋ณ์ $Z$๋ฅผ ๋ฐฐ์ ํ Partial Correlation์ ์๋์ ๊ฐ์ด ๊ธฐ์ ํ๋ค.
\[\rho_{XY\cdot Z}\]Partial Correlation๋ Correlation๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก $\left[-1, +1\right]$์ ๋ฒ์๋ฅผ ๊ฐ๋๋ค.
Exercise
๊ฐ๋จํ ์์ ๋ฅผ ํตํด Partial Corr์ ์์๋ณด์. ์์ ๋ Statistics 101: Model Building, A Visual Guide to Partial Correlation ์์์ ๊ฒ์ ๋น๋ ค์๋ค. ๐
MTCARS
๋ผ๋ ์ -๋ช
ํ ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ ๊ฒ์ด๋ค. ์ GitHub ๋งํฌ์์ ๋ฐ์ดํฐ๋ฅผ ๋ณผ ์ ์๋ค. ์ด ์ค์์ ์ฐ๋น์ธ MPG(Miles per gallon)๋ฅผ ์ข
์ ๋ณ์๋ก, DRAT(rear axle gear ratio)๊ณผ HP(engine horsepower)๋ฅผ ๋
๋ฆฝ๋ณ์๋ก ์๊ด๊ด๊ณ ๋ถ์์ ์งํํ ๊ฒ์ด๋ค.
- ๋
๋ฆฝ๋ณ์
- DRAT $X_1$
- HP $X_2$
- ์ข
์๋ณ์
- MPG $Y$
3๊ฐ์ ๋ณ์์ ๋ํด Correlation Matrix๋ฅผ ๊ทธ๋ ค๋ณด๋ฉด ์๋์ ๊ฐ๋ค.
๊ฐ ๋ณ์์ Correlation
ํด์ํด๋ณด๋ฉด,
- MPG์ DRAT๋
0.68
๋ก ๋์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ธ๋ค. - MPG์ HP๋
-0.78
๋ก ๋์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ธ๋ค. - ๋
๋ฆฝ๋ณ์์ธ DRAT๊ณผ HP๋
-0.45
๋ก ์ฝ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ธ๋ค.
Correlation์ +/- ๋ถํธ๋ฅผ ๊ฐ์ง๋ ์ ๊ณฑํ $r^2$๋ฅผ ์ฌ์ฉํ์.
๊ฐ ๋ณ์์ $r^2$
์! ์ฌ๊ธฐ์๋ถํฐ Partial Correlation์ ๊ตฌํ๋ ๊ณผ์ ์ด ๋ณธ๊ฒฉ์ ์ผ๋ก ์์๋๋ค! ๐
DRAT
๊ณผ MPG
๋
๋ฆฝ๋ณ์ DRAT
๊ณผ ์ข
์๋ณ์ MPG
์ $r^2$ ๊ฐ์ 0.46
์ด์๋ค. ์ด๊ฒ์ DRAT
๋ฅผ ํตํด MPG
๋ฅผ 0.46
๋งํผ ์ค๋ช
ํ ์ ์๋ค๋ ๋ง์ด๋ค. ์์ ๊ทธ๋ฆผ์ $a$์ ํด๋นํ๋ ์์ญ์ด DRAT
์ ์ํด ์ค๋ช
๋๋ MPG
์ ํฌ๊ธฐ๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก HP
์ MPG
๋ ์์ ๊ฐ์ ๋ฒค ๋ค์ด์ด๊ทธ๋จ์ ๊ทธ๋ฆด ์ ์๋ค. DRAT
, HP
, MPG
3๊ฐ์ง๋ฅผ ๋ชจ๋ ๊ทธ๋ฆฌ๋ฉด ์๋์ ๊ฐ๋ค.
DRAT
, HP
, MPG
์ฐ๋ฆฌ๊ฐ ์ง๊ธ๊น์ง ์ป์ ์ ๋ณด๋ฅผ ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ๋ค.
- $a + b + c + d = 1$
- $a + b = 0.46$
- $b + c = 0.60$
๊ทธ๋ฌ๋ ์์ 3๊ฐ์ง ์ ๋ณด๋ง์ผ๋ก๋ ๊ฐ๋ณ ์์์ ๊ฐ์ ๊ตฌํ ์ ์๋ค. ๊ทธ๋์ ์ฐ๋ฆฌ๋ DART
, HP
๋ ๊ฐ์ง ๋
๋ฆฝ๋ณ์๋ก Multiple Regression์ ํ์ ๋์ $R^2$ ๊ฐ์ ์ฌ์ฉํ ๊ฒ์ด๋ค.
Multiple Regression์ $R^2$ ๊ฐ์ 0.74
์ด๋ค.
์ด๋ฅผ ํตํด ํ๋์ ์์์ด ์ถ๊ฐ๋๋๋ฐ, $a + b + c = 0.74$์ด๋ค.
๋ฐ๋ผ์, $a$, $b$, $c$, $d$์ ๊ฐ์ ๊ตฌํ๋ฉด
- $a = 0.14$
- $b = 0.32$
- $c = 0.28$
- $d = 0.26$
๋๋์ดโฆ! ๐ Partial Corr $\rho$๋ฅผ ๊ตฌํด๋ณด์!
\[\left(\rho_{X_1 Y \cdot X_2}\right)^2 = \frac{a}{a + d} = \frac{0.14}{0.14 + 0.26} = 0.35\] \[\rho_{X_1 Y \cdot X_2} = \sqrt{0.35} = 0.59\] \[\left(\rho_{X_2 Y \cdot X_1}\right)^2 = \frac{c}{c + d} = \frac{0.28}{0.28 + 0.26} = 0.52\] \[\rho_{X_2 Y \cdot X_1} = - \sqrt{0.26} = -0.72\]๋ช๊ฐ์ง ๋ถ์ ์ฐ์ฐ์ ๊ฑฐ์ณ์ ๋๋์ด! Partial Correlation์ ๊ตฌํ๋ค! ๐ Partial Correlation $\rho$๋ฅผ ๊ธฐ์กด์ Correlation ๊ฐ๊ณผ ๋น๊ตํด๋ณด์!
Variable | Corr | Partial Corr |
---|---|---|
DRAT | 0.68 | 0.59 |
HP | -0.77 | -0.72 |
Corr๋ณด๋ค Partial Corr์ผ ๋, ์๊ด์ฑ์ ํฌ๊ธฐ๊ฐ ๋ ์์์ง ๊ฒ์ ํ์ธํ ์ ์๋ค! ์ด ์ฌ์ค์ ๋ณธ๋์ Corr์ ๋ค๋ฅธ ๋ณ์์ ์ํฅ์ด ์์ฌ ์์์์ ๋งํด์ค๋ค.
Generalization
์์ Exercise์์ 2๊ฐ์ ๋ ๋ฆฝ๋ณ์ ์๊ธฐ ๋๋ฌธ์ ๋ฒค ๋ค์ด์ด๊ทธ๋จ์ผ๋ก ์ฝ๊ฒ Partial Correlation์ ๊ตฌํ ์ ์์๋ค. ๊ทธ๋ฌ๋ $N$๊ฐ ๋ ๋ฆฝ๋ณ์๊ฐ ์๋ ์ํฉ์ด๋ผ๋ฉด Partial Correlation์ ์ด๋ป๊ฒ ๊ตฌํด์ผ ํ ๊น? ๐ค
๋ฐฉ๋ฒ์ Linear Regression์ ์์ฐจ(Residual)๋ฅผ ํ์ฉํ๋ ๊ฒ์ด๋ค!
๋จผ์ RV $X$, $Y$์ ๋ํด $Z$๋ฅผ Partialling Outํ Partiall Correlation $\rho_{XY \cdot Z}$๋ฅผ ๊ตฌํด๋ณด์.
๋จผ์ $Z$๋ฅผ $X$, $Y$์ ๋ํด Linear Regression Fitting์ ํ๋ค.
\[w^{\ast}_X = \underset{w}{\text{argmin}} \left\{ \sum^N_{i=1} = (x_i - w \cdot z_i)^2 \right\}\] \[w^{\ast}_Y = \underset{w}{\text{argmin}} \left\{ \sum^N_{i=1} = (y_i - w \cdot z_i)^2 \right\}\]๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ํตํด ์์ฐจ(residual)์ ๊ตฌํ๋ฉด
\[e_{X, i} = x_i - w^{\ast}_X \cdot z_i\] \[e_{Y, i} = y_i - w^{\ast}_Y \cdot z_i\]์ด์ ๋ ๋ณ์์ ์์ฐจ์ ๋ํ Correlation์ ๊ตฌํ๋ฉด, ๊ทธ๊ฒ์ด ๋ ๋ณ์์ Partial Correlation์ด๋ค!
\[\rho_{XY\cdot Z} = \text{Cor}(e_{X}, e_{Y})\]์ ์ด๋ ๊ฒ ๊ตฌํ๋๊ฐ?
์์์ Partialling Outํ ๋ ๋ฆฝ๋ณ์๋ฅผ ๊ฐ์ง๊ณ Linear Regression์ ํ ํ, ์์ฐจ(residual)๋ฅผ ๊ธฐ์ค์ผ๋ก Partial Correlation์ ๊ตฌํ๋ค. ์ ์ด๋ ๊ฒ ํ ๊ฑธ๊น?
์ผ๋จ ์ฌ๊ธฐ์ โ์์ฐจโ์ ์๋ฏธ๋ ๋ง ๊ทธ๋๋ก ๋ ๋ฆฝ๋ณ์ $Z$์ ์ํฅ๋ ฅ์ ์ ์ธํ ์ดํ์ ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ค. ์ฌ๊ธฐ๊น์ง๋ ์์ฐ์ค๋ฌ์ด๋ฐ, ์ ๋ ๋ฆฝ๋ณ์ $X$์๋, ์ข ์๋ณ์ $Y$์ ๋ํด์๋ ์์ฐจ๋ฅผ ๊ตฌํ์๊น?
$X2$๋ฅผ $X1$์๋ $Y$์๋ ๋นผ์ฃผ์๋ค.
๋ค์ ๋ฒค ๋ค์ด์ด๊ทธ๋จ์ผ๋ก ๋์์๋ณด์. ์ฐ๋ฆฌ๋ $X1$, $Y$์ Partial Corr๋ฅผ ๊ตฌํ๊ธฐ ์ํด $X1$์ $Y$์์ $X2$์ ๊ฒน์น๋ ๋ถ๋ถ์ ์ธ-์ ๋ ๋ ค์ฃผ์๋ค. ๋ ๋ฆฝ๋ณ์, ์ข ์๋ณ์ ์์ชฝ ๋ชจ๋ Partialling Outํ ๋ณ์์ ์ํฅ๋ ฅ์ ์ ๊ฑฐํด์ค์ผ ํ๋ ๊ฒ์ด๋ค!
๋ค์ Generalization
๋ง์ง๋ง์ผ๋ก ๋์ผํ ์ํฉ์์ Partialling Outํ๋ ๋ ๋ฆฝ๋ณ์๊ฐ $n$๊ฐ ์ธ $\mathbf{z} = \left\{ z_i \right\}_n$ ์ํฉ๋ง ์ดํด๋ณด์.
\[\mathbf{w}^{\ast}_X = \underset{\mathbf{w}}{\text{argmin}} \left\{ \sum^N_{i=1} = (x_i - \left< \mathbf{w}, \mathbf{z} \right>)^2 \right\}\] \[\mathbf{w}^{\ast}_Y = \underset{\mathbf{w}}{\text{argmin}} \left\{ \sum^N_{i=1} = (y_i - \left< \mathbf{w}, \mathbf{z} \right>)^2 \right\}\]์ด๋ฅผ ํตํด ์์ฐจ(residual)์ ๊ตฌํ๋ฉด
\[e_{X, i} = x_i - \left< \mathbf{w}^{\ast}_X, \mathbf{z}_i \right>\] \[e_{Y, i} = y_i - \left< \mathbf{w}^{\ast}_Y, \mathbf{z}_i \right>\]์ด์ ๋ ์์ฐจ์ ๋ํ Correlation์ ๊ตฌํ๋ฉด,
\[\rho_{XY\cdot \mathbf{z}} = \text{Cor}(e_{X}, e_{Y})\]๋งบ์๋ง
Partialling Out, Regression Fitting์ ํตํด ๋ค๋ฅธ RV์ ์ํฅ๋ ฅ์ ์์ ๋ ๋ฐฉ๋ฒ์ด์๋ค. ์๋กญ๊ฒ ๋ฐฐ์ด ์ ํ ํฌ๋, ๋ค๋ฅธ ๊ณณ์ ์จ๋ณผ ์ ์์ง ์์๊น?
์ด Partial Correlation์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ EDAํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ธ Auto-Correlation๊ณผ Partial Auto-Correlation์ ๊ณต๋ถํ๋ฉด์ ์ ๊ฐ๋ ์ด ํ์ํด ํ๋ฒ ์ ๋ฆฌํ๊ฒ ๋์๋ค. ์ด์ด์ง๋ โACF & PACFโ ํฌ์คํธ์์ ์ ๊ฐ๋ ์ ์ ํ์ฉํด๋ณด์ ๐