μ„ ν–‰ κ°œλ…

6 minute read

μ„ ν–‰ κ°œλ…

펼쳐보기

Definition. Variance

\[\text{Var}(X) = \sum_i^N \frac{(X_i - \bar{X})^2}{N}\]

Definition. Covariance

\[\text{Cov}(X, Y) = \sum_i^N \frac{(X_i - \bar{X})(Y_i - \bar{Y})}{N}\]

Definition. Correlation

\[\text{Corr}(X, Y) = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)} \sqrt{\text{Var}(Y)}}\]
  • Correlation은 $\left[ -1, 1 \right]$의 λ²”μœ„λ₯Ό κ°–λŠ”λ‹€.
  • μœ„μ™€ 같은 Correlation을 Pearson Correlation $r_{XY}$라고 ν•œλ‹€.

Definition. Partial Correlation

\[\rho_{XY\cdot \mathbf{z}} = \text{Cor}(e_{X}, e_{Y})\]

where $e_{X}$ and $e_{Y}$ are residual of multiple regression fitting on $\mathbf{z}$.

Auto-Correlationμ΄λž€?

μ‹œκ³„μ—΄ 데이터 $\{ s(t) \}$μ—μ„œ $s(t)$λŠ” μ΄μ „μ˜ νƒ€μž„ μŠ€ν…μ˜ $s(t-1)$, $s(t-2)$ κ°’μ—μ„œ κ°‘μžκΈ° 크게 μƒμŠΉν•œλ‹€κ±°λ‚˜, κ°‘μžκΈ° 크게 ν•˜λ½ν•˜λŠ” 일은 ν”ν•˜μ§€ μ•Šλ‹€.

Correlation $\text{Corr}(X, Y)$은 본래 μ„œλ‘œ λ‹€λ₯Έ 두 Random Variable $X$, $Y$의 상관성을 보기 μœ„ν•œ μ§€ν‘œμ΄λ‹€. 그런데, μ‹œκ³„μ—΄ 데이터에선 μžμ‹ κ³Ό μ΄μ „μ˜ κ°’ 사이에 상관성을 보기 μœ„ν•΄ Auto-Correlation $\text{Corr}(s(t), s(t-1))$λ₯Ό κ΅¬ν•œλ‹€.

\[\text{Corr}(s(t), s(t-1)) = \frac{\text{Cov}(s(t), s(t-1))}{\sqrt{\text{Var}(s(t))} \sqrt{\text{Var}(s(t-1))}} = \frac{\text{Cov}(s(t), s(t-1))}{\text{Var}(s(t))}\]

Auto-Correlation의 μˆ˜μ‹κ³Ό 컨셉은 λ³„λ‘œ 어렡지 μ•Šλ‹€. μ‹œκ³„μ—΄ 데이터λ₯Ό $t$와 $t-1$둜 ν‘œν˜„ν•˜λ©΄ μ•„λž˜μ™€ 같은데,

$t$ $s(t)$ $s(t-1)$
1 11 10
2 12 11
3 14 12
4 16 14
5 20 16

μ‹œκ³„μ—΄ $s(t)$κ°€ μœ„μ™€ 같은 νŒ¨ν„΄μ„ 보인닀면, Auto-Corrrelation $\text{Corr}(s(t), s(t-1))$λŠ” μ–‘(+)의 λΆ€ν˜Έλ₯Ό κ°€μ§ˆ 것이닀.

Auto-Correlation μˆ˜μ‹μ„ 쒀더 μΌλ°˜ν™”ν•΄μ„œ Auto-Correlation Function, ACF둜 ν‘œν˜„ν•˜κΈ°λ„ ν•œλ‹€. 이전 $k$ μŠ€ν…κ³Όμ˜ 상관성을 보기 μœ„ν•œ ACF $\text{ACF}(k)$λŠ” μ•„λž˜μ™€ 같이 μ •μ˜ν•œλ‹€.

\[\text{ACF}(k) = \frac{\text{Cov}(s(t), s(t-k))}{\text{Var}(s(t))}\]

Example: goog200

goog200μ΄λΌλŠ” μ‹œκ³„μ—΄ μ£Όκ°€ λ°μ΄ν„°μ—μ„œ ACFλ₯Ό ꡬ해보면 μ•„λž˜μ™€ κ°™λ‹€.

μ „λ°˜μ μœΌλ‘œ μ΄μ „μ˜ 데이터에 높은 μ–‘(+)의 상관성을 λ³΄μ΄λŠ” 것을 μ•Œ 수 μžˆλ‹€.

Partial ACF

$\text{ACF}(k)$λŠ” $s(t)$와 $s(t-k)$, 두 κ°’μ˜ 상관성을 좜λ ₯ν•œλ‹€. κ·ΈλŸ¬λ‚˜ κ·Έ 사이에 μžˆλŠ” $s(t-1)$λΆ€ν„° $s(t-(k-1))$의 영ν–₯λ ₯이 μ‘΄μž¬ν•˜μ§€ μ•Šμ•˜μ„κΉŒ? πŸ€”

$s(t)$와 $s(t-1)$κ°€ 상관성이 μžˆλ‹€λ©΄, $s(t-1)$와 $s(t-2)$도 상관성이 μžˆμ„ 것이닀. κ·Έλ ‡λ‹€λ©΄, $s(t)$와 $s(t-2)$도 상관성이 μžˆμ„ κ²ƒμ΄λΌλŠ”κ²Œ μžμ—°μŠ€λŸ½κ²Œ μœ λ„λœλ‹€.


<Partial Correlation>λΌλŠ” κ°œλ…μ΄ μžˆλ‹€. μžμ„Έν•œ λ‚΄μš©μ€ β€œPartial Correlation” ν¬μŠ€νŠΈμ— μ μ–΄λ’€μ§€λ§Œ, κ°„λ‹¨νžˆ λ§ν•΄λ³΄μžλ©΄. μ—¬λŸ¬ 개의 λ…λ¦½λ³€μˆ˜κ°€ 있고, 각 λ…λ¦½λ³€μˆ˜ 사이에 μ–΄λŠμ •λ„μ˜ Correlation이 μžˆμ„ λ•Œ, 그런 λ…λ¦½λ³€μˆ˜ μ‚¬μ΄μ˜ 상관성을 λ°°μ œν•˜κ³  였직 λ…λ¦½λ³€μˆ˜ λ‹¨λ…μ˜ μ’…μ†λ³€μˆ˜μ— λŒ€ν•œ Correlation을 μΈ‘μ •ν•˜λŠ” 방법이닀.


Partial ACF $\text{PACF}(k)$ μ—­μ‹œ $s(t)$와 $s(t-k)$의 상관성을 μΈ‘μ •ν•œλ‹€λŠ” 것은 $\text{ACF}(k)$와 λ™μΌν•˜λ‹€. κ·ΈλŸ¬λ‚˜ $\text{PACF}(k)$λŠ” $s(t)$와 $s(t-k)$ μ‚¬μ΄μ˜ $s(t-1)$λΆ€ν„° $s(t-(k-1))$의 영ν–₯을 λ°°μ œν•˜κ³  상관성을 μΈ‘μ •ν•œλ‹€!

Example

λ‹€μ‹œ goog200 μ‹œκ³„μ—΄ μ£Όκ°€ 데이터λ₯Ό ν™œμš©ν•΄ PACF κ·Έλž˜ν”„λ₯Ό 그렀보자.

μ΄λ²ˆμ—λŠ” ACF와 λ‹€λ₯΄κ²Œ, $\text{PACF}(1)$μ—μ„œλ§Œ 큰 상관성을 λ³΄μ˜€λ‹€. 이것을 톡해 $S(t)$와 $S(t-1)$κ°€ 쒀더 μœ μ˜ν•œ 상관관계가 μžˆμ„ 거라고 생각할 수 μžˆλ‹€! πŸ˜€

Derivation

PACFλ₯Ό μœ λ„ν•˜λŠ” 것은 Partial Correlation $\rho_{XY\cdot Z}$λ₯Ό μœ λ„ν•˜λŠ” 것과 λ™μΌν•˜λ‹€. 영ν–₯을 λ°°μ œν•˜κ³ μž ν•˜λŠ” λ…λ¦½λ³€μˆ˜μ— λŒ€ν•΄ Linear Regression Fitting을 ν•˜κ³ , μž”μ°¨(residual)에 λŒ€ν•΄ Correlation을 ꡬ해주면 λœλ‹€! πŸ‘

Simple Case

μš°μ„  κ°„λ‹¨ν•œ $k=2$인 κ²½μš°λΆ€ν„° μœ λ„ν•΄λ³΄μž. μš°λ¦¬λŠ” $\text{PACF}(2)$, 즉 $s(t)$와 $s(t-2)$의 Partial Auto-Correlation을 κ΅¬ν•˜κ³ μž ν•œλ‹€.

λ¨Όμ € μ•„λž˜μ™€ 같이 Linear Regression Fitting을 ν•œλ‹€.

\[\begin{aligned} w^{\ast}_{s(t)} &= \underset{w}{\text{argmin}} \left\{ \sum_{i} = (s(i) - w \cdot s(i-1))^2 \right\} \\ w^{\ast}_{s(t-2)} &= \underset{w}{\text{argmin}} \left\{ \sum_{i} = (s(i-2) - w \cdot s(i-1))^2 \right\} \end{aligned}\]

개인적으둜 PACF의 식을 μ΄ν•΄ν•˜λ €κ³  ν•  λ•Œ, 이해가 μ•ˆ λ˜λŠ” 뢀뢄이 $s(t)$μ—μ„œλŠ” $s(t-1)$에 λŒ€ν•΄ Fitting ν–ˆλŠ”λ°, $s(t-2)$μ—μ„œ κ·Έ 이전 μŠ€ν…μΈ $s(t-1)$둜 Fitting ν•˜λŠ” κ²ƒμ΄μ—ˆλ‹€. $s(t-2)$와 $s(t-3)$둜 Fitting ν•˜λŠ”κ²Œ μ•„λ‹ˆλΌ 말이닀!

사싀 이건 <Partial Correlation>의 μ •μ˜λ₯Ό μ΄ν•΄ν•˜λ©΄μ„œ ν•΄μ†Œλ˜μ—ˆλ‹€. $s(t)$와 $s(t-2)$의 Partial Correlation을 κ΅¬ν•˜κΈ° μœ„ν•΄ κ·Έ μ‚¬μ΄μ˜ λ‹€λ₯Έ λ…λ¦½λ³€μˆ˜μΈ $s(t-1)$의 영ν–₯을 λ°°μ œν•˜λŠ” κ³Όμ •μ΄λ―€λ‘œ, 두 λ³€μˆ˜μ—μ„œ $s(t-1)$에 λŒ€ν•΄ Fitting ν•˜λŠ” 것이 λ§žλ‹€! πŸ˜€

이제 μž”μ°¨(residual)을 κ΅¬ν•˜λ©΄,

\[\begin{aligned} e_{s(t), i} &= s(i) - w^{\ast}_{s(t)} \cdot s(i-1) \\ e_{s(t-2), i} &= s(i-2) - w^{\ast}_{s(t-2)} \cdot s(i-1) \end{aligned}\]

λ§ˆμ§€λ§‰μœΌλ‘œ μž”μ°¨μ— λŒ€ν•œ Correlation을 ꡬ해주면 λœλ‹€.

\[\text{PACF}(k) = \text{Cor} \left(e_{s(t)}, e_{s(t-2)} \right)\]

Generalization

이제 일반적인 $\text{PACF}(k)$의 μˆ˜μ‹μ— λŒ€ν•΄ μœ λ„ν•΄λ³΄μž. μ΄μ œλŠ” <Partial Correlation>μ΄λΌλŠ” 방식에 μ΅μˆ™ν•˜λ¦¬λΌ λ―Ώκ³ , λ°”λ‘œ μˆ˜μ‹μ„ 써보겠닀.

Definition. Partial ACF

\[\text{PACF}(k) = \text{Cor}(s(t) - \hat{s(t)}, \; s(t - k) - \hat{s(t)})\]

where $\hat{s(t)}$ is a linear combination of $\left\{ s(t-1), s(t-2), …, s(t-(k-1))\right\}$ that minimize the mean squared error of $s(t)$ and $s(t-k)$ respectively.


맺음말

ACF와 PACFλŠ” μ‹œκ³„μ—΄ 데이터λ₯Ό EDA ν•˜λŠ” κ³Όμ •μ—μ„œ μ‚¬μš©ν•˜λŠ” 기법 쀑 ν•˜λ‚˜λ‹€. ACF, PACF κ·Έλž˜ν”„λ₯Ό 보고, μ–΄λ–€ μ‹œκ³„μ—΄ λͺ¨λΈμ„ 쓸지 κ²°μ •ν•˜κ²Œ λœλ‹€.

ACF, PACFλ₯Ό μ œλŒ€λ‘œ μ“°λ €λ©΄ μ–΄λ–€ μ‹œκ³„μ—΄ λͺ¨λΈλ“€μ΄ μžˆλŠ”μ§€λ₯Ό λ¨Όμ € μ•Œμ•„μ•Ό ν•œλ‹€. μ•„λž˜μ˜ λͺ¨λΈλ“€μ„ λ¨Όμ € κ³΅λΆ€ν•˜κ³  였자.

  • AR(Auto-Regressive) Model
  • MA(Moving Average) Model
  • ARMA Model

Reference