Auto-Correlation: ACF & PACF
์ ํ ๊ฐ๋
ํผ์ณ๋ณด๊ธฐ
Definition. Variance
Definition. Covariance
Definition. Correlation
- Correlation์ $\left[ -1, 1 \right]$์ ๋ฒ์๋ฅผ ๊ฐ๋๋ค.
- ์์ ๊ฐ์ Correlation์ Pearson Correlation $r_{XY}$๋ผ๊ณ ํ๋ค.
Definition. Partial Correlation
where $e_{X}$ and $e_{Y}$ are residual of multiple regression fitting on $\mathbf{z}$.
Auto-Correlation์ด๋?
์๊ณ์ด ๋ฐ์ดํฐ $\{ s(t) \}$์์ $s(t)$๋ ์ด์ ์ ํ์ ์คํ ์ $s(t-1)$, $s(t-2)$ ๊ฐ์์ ๊ฐ์๊ธฐ ํฌ๊ฒ ์์นํ๋ค๊ฑฐ๋, ๊ฐ์๊ธฐ ํฌ๊ฒ ํ๋ฝํ๋ ์ผ์ ํํ์ง ์๋ค.
Correlation $\text{Corr}(X, Y)$์ ๋ณธ๋ ์๋ก ๋ค๋ฅธ ๋ Random Variable $X$, $Y$์ ์๊ด์ฑ์ ๋ณด๊ธฐ ์ํ ์งํ์ด๋ค. ๊ทธ๋ฐ๋ฐ, ์๊ณ์ด ๋ฐ์ดํฐ์์ ์์ ๊ณผ ์ด์ ์ ๊ฐ ์ฌ์ด์ ์๊ด์ฑ์ ๋ณด๊ธฐ ์ํด Auto-Correlation $\text{Corr}(s(t), s(t-1))$๋ฅผ ๊ตฌํ๋ค.
\[\text{Corr}(s(t), s(t-1)) = \frac{\text{Cov}(s(t), s(t-1))}{\sqrt{\text{Var}(s(t))} \sqrt{\text{Var}(s(t-1))}} = \frac{\text{Cov}(s(t), s(t-1))}{\text{Var}(s(t))}\]Auto-Correlation์ ์์๊ณผ ์ปจ์ ์ ๋ณ๋ก ์ด๋ ต์ง ์๋ค. ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ $t$์ $t-1$๋ก ํํํ๋ฉด ์๋์ ๊ฐ์๋ฐ,
$t$ | $s(t)$ | $s(t-1)$ |
---|---|---|
1 | 11 | 10 |
2 | 12 | 11 |
3 | 14 | 12 |
4 | 16 | 14 |
5 | 20 | 16 |
์๊ณ์ด $s(t)$๊ฐ ์์ ๊ฐ์ ํจํด์ ๋ณด์ธ๋ค๋ฉด, Auto-Corrrelation $\text{Corr}(s(t), s(t-1))$๋ ์(+)์ ๋ถํธ๋ฅผ ๊ฐ์ง ๊ฒ์ด๋ค.
Auto-Correlation ์์์ ์ข๋ ์ผ๋ฐํํด์ Auto-Correlation Function, ACF๋ก ํํํ๊ธฐ๋ ํ๋ค. ์ด์ $k$ ์คํ ๊ณผ์ ์๊ด์ฑ์ ๋ณด๊ธฐ ์ํ ACF $\text{ACF}(k)$๋ ์๋์ ๊ฐ์ด ์ ์ํ๋ค.
\[\text{ACF}(k) = \frac{\text{Cov}(s(t), s(t-k))}{\text{Var}(s(t))}\]Example: goog200
goog200
์ด๋ผ๋ ์๊ณ์ด ์ฃผ๊ฐ ๋ฐ์ดํฐ์์ ACF๋ฅผ ๊ตฌํด๋ณด๋ฉด ์๋์ ๊ฐ๋ค.
์ ๋ฐ์ ์ผ๋ก ์ด์ ์ ๋ฐ์ดํฐ์ ๋์ ์(+)์ ์๊ด์ฑ์ ๋ณด์ด๋ ๊ฒ์ ์ ์ ์๋ค.
Partial ACF
$\text{ACF}(k)$๋ $s(t)$์ $s(t-k)$, ๋ ๊ฐ์ ์๊ด์ฑ์ ์ถ๋ ฅํ๋ค. ๊ทธ๋ฌ๋ ๊ทธ ์ฌ์ด์ ์๋ $s(t-1)$๋ถํฐ $s(t-(k-1))$์ ์ํฅ๋ ฅ์ด ์กด์ฌํ์ง ์์์๊น? ๐ค
$s(t)$์ $s(t-1)$๊ฐ ์๊ด์ฑ์ด ์๋ค๋ฉด, $s(t-1)$์ $s(t-2)$๋ ์๊ด์ฑ์ด ์์ ๊ฒ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด, $s(t)$์ $s(t-2)$๋ ์๊ด์ฑ์ด ์์ ๊ฒ์ด๋ผ๋๊ฒ ์์ฐ์ค๋ฝ๊ฒ ์ ๋๋๋ค.
<Partial Correlation>๋ผ๋ ๊ฐ๋ ์ด ์๋ค. ์์ธํ ๋ด์ฉ์ โPartial Correlationโ ํฌ์คํธ์ ์ ์ด๋์ง๋ง, ๊ฐ๋จํ ๋งํด๋ณด์๋ฉด. ์ฌ๋ฌ ๊ฐ์ ๋ ๋ฆฝ๋ณ์๊ฐ ์๊ณ , ๊ฐ ๋ ๋ฆฝ๋ณ์ ์ฌ์ด์ ์ด๋์ ๋์ Correlation์ด ์์ ๋, ๊ทธ๋ฐ ๋ ๋ฆฝ๋ณ์ ์ฌ์ด์ ์๊ด์ฑ์ ๋ฐฐ์ ํ๊ณ ์ค์ง ๋ ๋ฆฝ๋ณ์ ๋จ๋ ์ ์ข ์๋ณ์์ ๋ํ Correlation์ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Partial ACF $\text{PACF}(k)$ ์ญ์ $s(t)$์ $s(t-k)$์ ์๊ด์ฑ์ ์ธก์ ํ๋ค๋ ๊ฒ์ $\text{ACF}(k)$์ ๋์ผํ๋ค. ๊ทธ๋ฌ๋ $\text{PACF}(k)$๋ $s(t)$์ $s(t-k)$ ์ฌ์ด์ $s(t-1)$๋ถํฐ $s(t-(k-1))$์ ์ํฅ์ ๋ฐฐ์ ํ๊ณ ์๊ด์ฑ์ ์ธก์ ํ๋ค!
Example
๋ค์ goog200
์๊ณ์ด ์ฃผ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด PACF ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค๋ณด์.
์ด๋ฒ์๋ ACF์ ๋ค๋ฅด๊ฒ, $\text{PACF}(1)$์์๋ง ํฐ ์๊ด์ฑ์ ๋ณด์๋ค. ์ด๊ฒ์ ํตํด $S(t)$์ $S(t-1)$๊ฐ ์ข๋ ์ ์ํ ์๊ด๊ด๊ณ๊ฐ ์์ ๊ฑฐ๋ผ๊ณ ์๊ฐํ ์ ์๋ค! ๐
Derivation
PACF๋ฅผ ์ ๋ํ๋ ๊ฒ์ Partial Correlation $\rho_{XY\cdot Z}$๋ฅผ ์ ๋ํ๋ ๊ฒ๊ณผ ๋์ผํ๋ค. ์ํฅ์ ๋ฐฐ์ ํ๊ณ ์ ํ๋ ๋ ๋ฆฝ๋ณ์์ ๋ํด Linear Regression Fitting์ ํ๊ณ , ์์ฐจ(residual)์ ๋ํด Correlation์ ๊ตฌํด์ฃผ๋ฉด ๋๋ค! ๐
Simple Case
์ฐ์ ๊ฐ๋จํ $k=2$์ธ ๊ฒฝ์ฐ๋ถํฐ ์ ๋ํด๋ณด์. ์ฐ๋ฆฌ๋ $\text{PACF}(2)$, ์ฆ $s(t)$์ $s(t-2)$์ Partial Auto-Correlation์ ๊ตฌํ๊ณ ์ ํ๋ค.
๋จผ์ ์๋์ ๊ฐ์ด Linear Regression Fitting์ ํ๋ค.
\[\begin{aligned} w^{\ast}_{s(t)} &= \underset{w}{\text{argmin}} \left\{ \sum_{i} = (s(i) - w \cdot s(i-1))^2 \right\} \\ w^{\ast}_{s(t-2)} &= \underset{w}{\text{argmin}} \left\{ \sum_{i} = (s(i-2) - w \cdot s(i-1))^2 \right\} \end{aligned}\]๊ฐ์ธ์ ์ผ๋ก PACF์ ์์ ์ดํดํ๋ ค๊ณ ํ ๋, ์ดํด๊ฐ ์ ๋๋ ๋ถ๋ถ์ด $s(t)$์์๋ $s(t-1)$์ ๋ํด Fitting ํ๋๋ฐ, $s(t-2)$์์ ๊ทธ ์ด์ ์คํ ์ธ $s(t-1)$๋ก Fitting ํ๋ ๊ฒ์ด์๋ค. $s(t-2)$์ $s(t-3)$๋ก Fitting ํ๋๊ฒ ์๋๋ผ ๋ง์ด๋ค!
์ฌ์ค ์ด๊ฑด <Partial Correlation>์ ์ ์๋ฅผ ์ดํดํ๋ฉด์ ํด์๋์๋ค. $s(t)$์ $s(t-2)$์ Partial Correlation์ ๊ตฌํ๊ธฐ ์ํด ๊ทธ ์ฌ์ด์ ๋ค๋ฅธ ๋ ๋ฆฝ๋ณ์์ธ $s(t-1)$์ ์ํฅ์ ๋ฐฐ์ ํ๋ ๊ณผ์ ์ด๋ฏ๋ก, ๋ ๋ณ์์์ $s(t-1)$์ ๋ํด Fitting ํ๋ ๊ฒ์ด ๋ง๋ค! ๐
์ด์ ์์ฐจ(residual)์ ๊ตฌํ๋ฉด,
\[\begin{aligned} e_{s(t), i} &= s(i) - w^{\ast}_{s(t)} \cdot s(i-1) \\ e_{s(t-2), i} &= s(i-2) - w^{\ast}_{s(t-2)} \cdot s(i-1) \end{aligned}\]๋ง์ง๋ง์ผ๋ก ์์ฐจ์ ๋ํ Correlation์ ๊ตฌํด์ฃผ๋ฉด ๋๋ค.
\[\text{PACF}(k) = \text{Cor} \left(e_{s(t)}, e_{s(t-2)} \right)\]Generalization
์ด์ ์ผ๋ฐ์ ์ธ $\text{PACF}(k)$์ ์์์ ๋ํด ์ ๋ํด๋ณด์. ์ด์ ๋ <Partial Correlation>์ด๋ผ๋ ๋ฐฉ์์ ์ต์ํ๋ฆฌ๋ผ ๋ฏฟ๊ณ , ๋ฐ๋ก ์์์ ์จ๋ณด๊ฒ ๋ค.
Definition. Partial ACF
where $\hat{s(t)}$ is a linear combination of $\left\{ s(t-1), s(t-2), โฆ, s(t-(k-1))\right\}$ that minimize the mean squared error of $s(t)$ and $s(t-k)$ respectively.
๋งบ์๋ง
ACF์ PACF๋ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ EDA ํ๋ ๊ณผ์ ์์ ์ฌ์ฉํ๋ ๊ธฐ๋ฒ ์ค ํ๋๋ค. ACF, PACF ๊ทธ๋ํ๋ฅผ ๋ณด๊ณ , ์ด๋ค ์๊ณ์ด ๋ชจ๋ธ์ ์ธ์ง ๊ฒฐ์ ํ๊ฒ ๋๋ค.
ACF, PACF๋ฅผ ์ ๋๋ก ์ฐ๋ ค๋ฉด ์ด๋ค ์๊ณ์ด ๋ชจ๋ธ๋ค์ด ์๋์ง๋ฅผ ๋จผ์ ์์์ผ ํ๋ค. ์๋์ ๋ชจ๋ธ๋ค์ ๋จผ์ ๊ณต๋ถํ๊ณ ์ค์.
- AR(Auto-Regressive) Model
- MA(Moving Average) Model
- ARMA Model