Linear Classification - 1
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
Classficiation by Linear Regression
Binary Classification
Assume that $\mathcal{Y}= \{ 0, 1 \}$, and consider the <linear regression> model
\[Y = X^T \beta + \epsilon\]For some estimator $\hat{\beta}$, and given $X=x$, predictor $Y$ do something like this
\[\hat{Y} = \begin{cases} \quad 1 & \text{if } x^{T}\hat{\beta} > 0.5 \\ \quad 0 & \text{if } x^{T}\hat{\beta} \le 0.5 \end{cases}\]์ด๋, $x^T \hat{\beta}$๋ $Y=1$์ ๋ํ ํ๋ฅ ์ ๋ฑ๋ ํจ์์ ์ผ์ข ์ด๋ผ๊ณ ์๊ฐํ ์ ์๋ค.
\[\hat{f}(x) = \text{Pr}(Y = 1 \mid X = x) = E(Y \mid X = x)\]์ด๋ จ ํํ์ ๊ฐ Class์ ๋ํ posterior probability๋ฅผ ๊ณ์ฐํด Classify๋ฅผ ์งํํ๋ ๋ชจ๋ธ์ <Bayes Classifier>๋ผ๊ณ ํต์นญํ๋ค.
Multi-class Classification
Assume that $\mathcal{Y}=\{1, \dots, K\}$, and let $\mathbf{Y}$ be the $n \times K$ binary matrix where the $(i, k)$ element is $1$ if $y_i = k$ and $0$ otherwise.
Let
\[\hat{\mathbf{B}} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T\mathbf{Y}\](deriven from RSS estimator!)
\[\hat{\mathbf{Y}} = \mathbf{X} \hat{\mathbf{B}}\]์ด๋ ๊ฒ ๋๋ค๋ฉด inference์์๋, For $X=x$, one may predict $Y$ as
\[\hat{Y} = \underset{k\in\mathcal{Y}}{\text{argmax}} \; {\hat{f}_k (x)}\]where $(\hat{f}_1 (x), \dots, \hat{f}_K(x)) = x^T \hat{\mathbf{B}}$.
์ด๋, ๊ฐ $\hat{f}_i (x)$๋ binary classification์ $\hat{f}(x)$์ ๋น์ทํ๊ฒ ์๋์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋๋ poster-priority๋ฅผ ์์ธกํ๋ estimator์ ์ญํ ์ ํ๋ค.
\[\hat{f}_k (x) = \text{Pr}(Y=k \mid X=x)\]Problem.
(์ถํ์ ๊ธฐ์ )
Probabilistic Model
์์ ๋ ๊ฒฝ์ฐ์์ ์ดํด๋ดค๋ฏ, Linear Regression์ ์ํ ์ ๊ทผ์ ๊ฒฐ๊ตญ ์๋์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ estimate ํ๋ ์ ๊ทผ์ด์๋ค.
\[\text{Pr}(Y=k \mid X=x)\]์ด๋, ์ด ์กฐ๊ฑด๋ถ ํ๋ฅ ์ posterior probability๋ก <๋ฒ ์ด์ฆ ์ ๋ฆฌ>์ ์ํด ์๋์ ๊ฐ๋ค.
\[\text{Pr}(Y=k \mid X=x) = \frac{\pi_k \cdot f_k(x)}{\displaystyle \sum^K_{i=1} \pi_i \cdot f_i (x)}\]์ด๋, ์ฐ๋ณ์ ๊ฐ ํญ๋ชฉ๋ค์ ์ดํด๋ณด๋ฉด
- $\pi_k$: the <class probability> of class $k$; prior probability
- $f_k (x)$: the <class-conditional density> of $X$ in class $Y=k$
๋ง์ฝ ์ฐ๋ฆฌ๊ฐ $\pi_k$, $f_k (x)$๋ฅผ ๋ชจ๋ ์๊ณ ์๋ค๋ฉด, ์ฐ๋ฆฌ๋ $X=x$๊ฐ ์์ ๋, ์ด๋ค $Y=k$๊ฐ ์ ํ๋์ด์ผ ํ๋์ง estimate ํ ์ ์๋ค. ๋จ, $\pi_k$, $f_k(x)$๋ ๋ชจ๋ ์ฐ๋ฆฌ๊ฐ ์ถ์ ํด์ผ ํ๋ ๊ฐ์ด๋ฉฐ, ์ด๊ฒ์ ์ถ์ ํ๊ธฐ ์ํด ์ด๋ป๊ฒ ์ ๊ทผํ๊ณ ์ด๋ค ๊ฐ์ ์ ์ฐ๋์ง ์์ ์์ ๋ฐฐ์ด๋ค.
Linear Discriminant Analysis
LDA๋ $f_k$๊ฐ ์๋์ ๊ฐ์ ์ ๊ท ๋ถํฌ $N(\mu_k, \Sigma_k)$๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ๋ค. 1
\[f_k(x) = \frac{1}{\left| 2\pi \Sigma_k \right|^{1/2}} \exp \left[ - \frac{(x-\mu_k)^T \Sigma_k^{-1} (x-\mu_k)}{2}\right]\]์ด๋, ๋ง์ฝ ๊ฐ $\Sigma_k$์ ๋ํด
\[\Sigma_k = \Sigma \quad \text{for all} \; k\]๋ผ๋ ์์ฃผ์์ฃผ ํน๋ณํ ๊ฐ์ ์ด ์ถ๊ฐ๋ ๊ฒ์ด <LDA; Linear Discriminant Analysis>๋ค! ๐
์์ ๊ฐ์ด ์ค์ ํ์ ๋์ <decision boundary>๋ฅผ ์๊ฐํด๋ณด์.
\[P(Y=k \mid X=x) = P(Y=l \mid X=x)\]boundary์ ๋ํ ์์ ์์ ์ ์ ๋ฆฌํด๋ณด๋ฉด,
\[\begin{aligned} \log \frac{P(Y=k \mid X=x)}{P(Y=l \mid X=x)} &= \log \frac{\pi_k \cdot f_k(x)}{\pi_l \cdot f_l(x)} = \log \frac{\pi_k}{\pi_l} + \log \frac{f_k(x)}{f_l(x)} \\ &= \log \frac{\pi_k}{\pi_l} + \log \left( \frac{\exp\left( -\frac{(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)}{2}\right)}{\exp\left( -\frac{(x-\mu_l)^T\Sigma^{-1}(x-\mu_l)}{2}\right)}\right) \\ &= \log \frac{\pi_k}{\pi_l} + \log \left( \exp \left( \frac{-(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)+(x-\mu_l)^T\Sigma^{-1}(x-\mu_l)}{2}\right) \right) \\ &= \log \frac{\pi_k}{\pi_l} + \left( \frac{-(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)+(x-\mu_l)^T\Sigma^{-1}(x-\mu_l)}{2}\right) \\ &= \left(\log \frac{\pi_k}{\pi_l} -\frac{1}{2} (\mu_k + \mu_l)^T\Sigma^{-1}(\mu_k - \mu_l)\right) + x^T \Sigma^{-1} (\mu_k - \mu_l) \\ &= a + b^T x = 0 \end{aligned}\]์ผ๋ถ ์คํ ์ ๊ณผ์ ์ ์๋ตํ๊ณ ๊ฒฐ๊ณผ๋ง ๋ฐ๋ก ์ ์๋๋ฐ, ์์ธํ ๊ณผ์ ์ ์๋์ ํผ์ณ๋ณด๊ธฐ์ ๊ธฐ์ ํด๋๊ฒ ๋ค.
ํผ์ณ๋ณด๊ธฐ
(์ถํ ๊ธฐ์ )
์์ ์คํ ์ ๋ง์ง๋ง์ $a+b^Tx = 0$๋ผ๋ ํ๋ฉด์์ด ์ ๋ ๋์๋๋ฐ, ๊ฒฐ๊ตญ ์ด $a+b^T x = 0$์ด๋ผ๋ hyper-plain์ด <decision boundary>๊ฐ ๋จ์ ์ ์ ์๋ค!!
Classification.
์ด์ LDA๋ฅผ ์ด์ฉํด classification์ ์ด๋ป๊ฒ ์ํํ๋์ง ๋ ผํด๋ณด์.
๋จผ์ $P(Y = k \mid X=x)$์์ ๋ถ๋ชจ๊ฐ ๋ชจ๋ ๋์ผํ ๊ฐ์ ๊ฐ์ง ํ ๋, ๋ถ์์ธ $\pi_k \cdot f_k(x)$๋ฅผ maximizeํ๋ฉด ๋๋ค! $f_k(x)$์ ์ง์์์ด ์์ผ๋ ๊ณ์ฐ์ ํธ์๋ฅผ ์ํด $\log$๋ฅผ ์์์ฃผ์.
\[\delta_k (x) = \log P(Y = k \mid X=x) = \log \pi_k + x^T \Sigma^{-1} \mu_k - \frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k\]์ด๋, $\log P(Y = k \mid X=x)$๋ฅผ <linear discriminant function> $\delta_k (x)$๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ฐ๋ฆฌ๋ $\{\delta_k(x)\}_{k \in \mathcal{Y}}$์ ๋ํด $\text{argmax}$๋ฅผ ์ทจํด
\[\hat{y} = \underset{k \in \mathcal{Y}}{\text{argmax}} \; \delta_k (x)\]๊ฐ์ฅ ํฐ discriminant function $\delta_k(x)$ ํจ์๊ฐ์ ๊ฐ๋ ํด๋์ค๋ก classification์ ์งํํ๋ค!
Parameter Estimation.
์์ง ์ฐ๋ฆฌ๋ $\pi_k$์ $f_k(x)$๋ฅผ ์ ํํ ์ ์ํ์ง๋ ์์๋ค. $f_k(x)$๊ฐ normal dist. $N(\mu_k, \Sigma)$๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ์ ํ์ง๋ง, $\mu_k$, $\Sigma$์ ๋ํ ๋ช ํํ ์ ์ํ์ง๋ ์์์๋ค. ์ด๋ฒ ํํธ์์๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ค์ ์ด๋ป๊ฒ ์ถ์ ํ ์ ์๋์ง ์ดํด๋ณธ๋ค.
Let $\displaystyle n_k = \sum^n_{i=1} I(y_i=k)$, then
\[\hat{\pi}_k = \frac{n_k}{n} \quad \text{(sample proportion)}\] \[\hat{\mu}_k = \frac{1}{n_k} \sum_{i: y_i = k} x_i \quad \text{(sample mean)}\] \[\hat{\Sigma} = \frac{1}{N-k} \sum^K_{k=1} \sum_{i: y_i=k} (x_i - \hat{\mu}_k) (x_i - \hat{\mu}_k)^T \quad \text{(pooled sample cov-var matrix)}\]ํผ์ณ๋ณด๊ธฐ
1. $\mu$๋ฅผ ํ์คํ ์ ๋
\[\hat{\Sigma} = \frac{1}{N} \sum^K_{k=1} \sum_{i: y_i=k} (x_i - \mu_k) (x_i - \mu_k)^T\]2. $\mu$๋ฅผ ๋ชจ๋ฅผ ๋
\[\hat{\Sigma} = \frac{1}{N-k} \sum^K_{k=1} \sum_{i: y_i=k} (x_i - \hat{\mu}_k) (x_i - \hat{\mu}_k)^T\]Quadratic Discriminant Analysis
LDA์์๋ ๊ฐ class $k$์ Cov-Var matrix $\Sigma_k$๊ฐ ๋ชจ๋ ๊ฐ์ ๊ฐ์ ๊ฐ์ง๋ค๊ณ ๊ฐ์ ํ๋ค. ๊ทธ๋ฐ๋ฐ ๋ง์ฝ ์ด ๊ฐ์ ์ ์ ๊ฑฐํ๋ค๋ฉด, ์ฐ๋ฆฌ๋ <QDA; Quadratic Discriminant Analysis>๋ฅผ ํ๊ฒ ๋๋ค.
\[\delta_k (x) = \log \pi_k - \frac{1}{2} \log \left| \Sigma_k \right| - \frac{1}{2} (x-\mu_k)^T \Sigma_k^{-1} (x-\mu_k)\]LDA์์์ $\delta_k(x)$์ ๋น๊ตํด๋ฉด, QDA์ ๊ฒฝ์ฐ, cancel out์ด ๋ ๋๊ธฐ ๋๋ฌธ์ โ2์ฐจ์โ์ด ๋จ๊ฒ ๋๋ค!
(๋ ์ค ํ๋๋ QDA๋ฅผ, ๋ค๋ฅธ ํ๋๋ $X_i$์ ๋ํ 2์ฐจ์($X_i^2, X_iX_j$)์ ๋ฃ๊ณ LDA๋ฅผ ๋๋ฆฐ ๊ฒฐ๊ณผ๋ค.)
์ด์ด์ง๋ ํฌ์คํธ์์๋ <Logistic Regression>์ ๋ํด ๋ค๋ฃฌ๋ค. ์ข๋ ์ต์ํ ์ฉ์ด๋ฅผ ์ฐ์๋ฉด, <MLE; Maximum Likelihood Estimation>์ ๋ํด ๋ค๋ฃฌ๋ค๋ ๋ง์ด๋ค!
๐ Linear Classification - 2
-
๊ฐ์กฐํ์ง๋ง, ๋ฐ๋์ ์ด๋ ๊ฒ ๋ชจ๋ธ๋งํ ์ ์๋ ๊ฑด ์๋๋ค. $f_k(X)$์ ๋ถํฌ๊ฐ $N(\mu_k, \Sigma_k)$๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ โ๊ฐ์ โํ์ ๋ฟ์ด๋ค! ์ค์ $f_k(X)$์ ๋ถํฌ๋ ๋ค๋ฅผ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค!ย ↩