Multi-class Classification
๋ณธ ๊ธ์ 2018-2ํ๊ธฐ Stanford Univ.์ Andrew Ng ๊ต์๋์ Machine Learning(CS229) ์์ ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
โ lecture 4
Multi-class Classification
์ง๊ธ๊น์ง์ Classification Problem์ $y \in \{0, 1\}$์ Binary Classification์ด์๋ค. ์ด๋ฒ์๋ $y \in \{1, 2, โฆ, k\}$์ Multi-Class Classification์ ๋ํด ์ดํด๋ณผ ๊ฒ์ด๋ค.
(์ฌ์ ์ง์) Multinomial Distribution
์ด๋ฒ ๊ธ์ ์ดํดํ๊ธฐ ์ํด์ Multinomial Distribution๋ฅผ ๋จผ์ ์ดํดํ ํ์๊ฐ ์๋ค.
์ฐ๋ฆฌ๋ ์ด๋ฏธ โ-nomialโ์ด ๋ถ์ ๋จ์ด๋ฅผ ํ๋ ์๊ณ ์๋ค. ๋ฐ๋ก Bi-nomial์ด๋ค. Binomial Distribution์ ์ดํญ๋ถํฌ๋ก, $N$๋ฒ์ ๋์ ๋์ง๊ธฐ์์ ์/๋ท๋ฉด์ด ๋ช๋ฒ ๋์ฌ์ง์ ๋ํ ๋ถํฌ๋ฅผ ๋ ์ฌ๋ฆฌ๋ฉด ๋๋ค. ์ดํญ๋ถํฌ๋ $B(n, p)$๋ก ํํํ๋ฉฐ $n$๋ ์ํํ์, $p$๋ ๊ธฐ์ค์ด ๋๋ event์ ํ๋ฅ ์ด๋ค.
์ดํญ๋ถํฌ์์ $n$๋ฒ ์ํ ์ค $k$๋ฒ ์ฑ๊ณตํ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆฌ๊ณ ์ดํญ๊ณ์ $\binom{n}{k}$๋ ์๋์ ๊ฐ์ด ํํ๋๋ค.
์ดํญ๋ถํฌ์ ์ํฉ์ Multi-class๋ก ํ์ฅํ๋ฉด, ๋คํญ๋ถํฌ, Multinomial์ด ๋๋ค.
$k$๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ๊ทธ ๊ฐ๋ค์ด ๋ํ๋ ํ๋ฅ ์ ๊ฐ๊ฐ $p_1$, $p_2$, โฆ, $p_k$๋ผ๊ณ ํ์. $n$๋ฒ์ ์ํ์์ $i$๋ฒ์งธ ๊ฐ์ด $x_i$ํ ๋ฐ์ํ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
Multinomial Distribution์์๋ ํ๋ณธ๊ฐ์ด ๋ฒกํฐ $\vec{x}=(x_1, \ldots, x_k)$๊ฐ ๋๋ค. ์ฆ, ์ฃผ์ฌ์๋ฅผ 10๋ฒ ๋์ ธ ์ฃผ์ฌ์ ๋์ ์ถํ ํ์๊ฐ $(3, 2, 3, 1, 1, 0)$์ผ ํ๋ฅ ์ Multinomial Distribution์ ํตํด ์ป์ ์ ์๋ ๊ฒ์ด๋ค.
๋คํญ๋ถํฌ์์์ ๊ณ์๋ ์ดํญ๋ถํฌ์ ์ดํญ๊ณ์ $\binom{n}{k}$์ ๊ฐ์ด ํํํ ์ ์๋ค.
Multi-Class Classification with GLM
Multi-Class Classification Problem์ GLM์ ๊ผด๋ก ๊ธฐ์ ํด๋ณด์.
๋จผ์ $T(y)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ๊ฒ์ด๋ค.
๊ทธ๋ฆฌ๊ณ $(T(y))_i$๋ ๋ฒกํฐ $T(y)$์ i๋ฒ์งธ ์์๋ฅผ ๊ฐ๋ฆฌํจ๋ค.
์ด๋ ํธ์๋ฅผ ์ํด ๋ง์ง๋ง ํด๋์ค์ธ $k$๋ฅผ ๋ค๋ฅธ $k-1$์ ํด๋์ค๋ก ์ ๋๋๋ ํด๋์ค๋ก ์ ์ํ์. ๊ทธ ๋ง์ ๊ณง $T(y)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ์๋ ๊ฒ์ด๋ค.
์ด๊ฒ์ ํตํด ๋ฒกํฐ $T(y)$์ ์ฐจ์์ $\mathbb{R^{k-1}}$๋ก ์ค์ผ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ $k$์ ํ๋ฅ $p(y=k;\phi)$๋ $1 - \sum_{i=1}^{k-1} {\phi_i}$๋ก ์ ์ํ๋ค.
์ด๋ฒ์ ๊ฐ class ๋ณ๋ก parameter $\theta_{i} \in \mathbb{R}^n$๋ฅผ ์ ์ํ ๊ฒ์ด๋ค.
๊ทธ๋์ ์ ์ฒด class์ parameter๋ฅผ ๋ชจ์ $\theta$๋ $\mathbb{R}^{n \times k}$์ ํ๋ ฌ์ด ๋๋ค.
์ฐ๋ฆฌ๋ ๋ ํ๋์ ์๋ก์ด ํ๊ธฐ๋ฒ์ ๋์ ํ๋ค. indicator function $1 \{ \cdot \}$์ ๊ดํธ ์์ ๋ช ์ ๊ฐ ์ฐธ์ด๋ผ๋ฉด 1์, ๊ฑฐ์ง์ด๋ผ๋ฉด 0์ ๋ฐํํ๋ ํจ์์ด๋ค. ๊ทธ๋์ $1\{\textrm{True}\}$๋ $1$์ด๊ณ , $1\{\textrm{False}\}$๋ $0$์ด๋ค.
์ด๊ฒ์ ํ์ฉํด ํ๋ฅ $p(y; \phi)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํํํ๋ค.
์ด์ $p(y; \phi)$์ Algebraic Massage๋ฅผ ํด๋ณด๋ฉด,
์ด์ GLM์ ๊ฐ ์์๋ค์ ํ์ธํด๋ณด๋ฉด,
- $\eta$: $\left[ {\log{(\phi_1/\phi_k)}, \log{(\phi_2/\phi_k)}, \cdots, \log{(\phi_{k-1}/\phi_k)}} \right]^{T}$
- $a(\eta)$: $-\log{(\phi_k)}$
- $b(y)$: $1$
๊ฐ ๋๋ค.
$\eta = \left[ {\log{(\phi_1/\phi_k)}, \log{(\phi_2/\phi_k)}, \cdots, \log{(\phi_{k-1}/\phi_k)}} \right]^{T}$๋ผ๋ ์ฌ์ค์ ์ํด natural parameter $\eta$์ canonical parameter $\phi$๋ฅผ ์ฐ๊ฒฐ์ง๋ link function์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
์ด๋ฒ์ link function์ ์ญํจ์๋ฅผ ์ทจํด response function์ ์ดํด๋ณด์.
๋ฐ๋ผ์ $\phi_k = 1/{\sum_{i=1}^{k}{e^{\eta_i}}}$๋ฅผ ์๋ฏธํ๊ณ , ์ด๊ฒ์ ์ด์ฉํด $e^{\eta_i} = \frac{\phi_i}{\phi_k}$๋ฅผ ๋ค์์ฐ๋ฉด
๊ฐ ๋๋ค. $\eta$๋ฅผ $\phi$๋ก ๋งคํํ๋ ์ด ํจ์๋ฅผ ์ฐ๋ฆฌ๋ softmax function์ด๋ผ๊ณ ํ๋ค!
์ด์ ์ด softmax function์ ์ด์ฉํด ํ๋ฅ $p(y=i \vert x; \theta)$๋ฅผ ๋ค์ ์ ์ํด๋ณด์.
์ด ๊ณผ์ ์์ GLM์ ๊ฐ์ ์ธ โnatural parameter $\eta$ and model parameter $\theta$ are linearly relatedโ๋ฅผ ์ ์ฉํ์๋ค.
์ด๋ ๊ฒ softmax function์ response function์ผ๋ก ์ฌ์ฉํ๋ regression์ softmax regression์ด๋ผ๊ณ ํ๋ค. softmax regression์ logistic regression์ general model์ด๋ค.
์ด์ ์ฐ๋ฆฌ์ ์ต์ข ์ ์ธ ์ถ๋ ฅ๊ฐ์ธ hypothesis $h_{\theta}(x)$๋ฅผ ์ดํด๋ณด์. GLM์์ $h_{\theta}(x)$๋ ๊ฐ์ ์ ์ํด $\textrm{E}[T(y) \vert x; \theta]$์ด๋ค.
์์ ์์์๋ $i=1, \ldots, k-1$์์์ $p(y=i \vert x; \theta)$๋ง์ ๋ค๋ฃจ๊ณ ์๋ค. $p(y=k \vert x; \theta)$์ ๊ฒฝ์ฐ๋ $1-\sum_{i=1}^{k-1} {\phi_i}$๋ก ์ป์ ์ ์๋ค.
Cross Entropy
์์์ ๋ค๋ฃฌ Softmax Regression์ ๊ทธ๋ฆผ์ ํตํด ๋ณต์ตํ๋ฉด์ Softmax Regression์ Loss function์ธ Cross Entropy์ ๋ํด ์ดํด๋ณด์.
์ฐ๋ฆฌ๋ $\theta$์ linearly related ๋ $\eta$์ exponential๊ณผ normalize๋ฅผ ์ทจํ์ฌ predicted probability์ธ $\hat{p}(y)$์ ์ ๋ํ์๋ค.
ํ์ง๋ง $\hat{p}(y)$์ ์์ฐํ predicted ๊ฐ์ผ ๋ฟ! ์ฐ๋ฆฌ๋ $\hat{p}(y)$๊ณผ ์ค์ ๊ฐ์ธ $p(y)$๋ฅผ ๋น๊ตํ์ฌ ๋ ์ฌ์ด์ ์ค์ฐจ๋ฅผ ์ต์ํ ํด์ผ ํ๋ค. ์ด๋ ์ ๋ต ๋ ์ด๋ธ์ ๋ํด $p(y)$๋ $1$์ ๊ฐ์ ๊ฐ์ง๋ค.
์ด์ $\hat{p}(y)$์ $p(y)$ ์ฌ์ด์ ์ค์ฐจ๋ฅผ ์ต์ํํ๋ ์งํ์ธ Cross Entropy๊ฐ ๋ฑ์ฅํ๋ค. Cross Entropy๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
์ด๋ $p(y)$์ ๊ฐ์ ์ ๋ต ๋ ์ด๋ธ์ ๋ํด์๋ง $1$์ ๊ฐ์ ๊ฐ๊ธฐ ๋๋ฌธ์, $\textrm{CrossEnt}(p, \hat{p})$์ ๋ค์๊ณผ ๊ฐ์ด ๊ธฐ์ ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๊ฐ ์์ ๊ณผ์ ์์ ๊ตฌํ $\hat{p}(y_i)$์ ์์ ๋์ ํ๋ฉด,
์ด์ parameter $\theta$๋ฅผ ์ ๋ฐ์ดํธํ๊ณ ์ ํ๋ค๋ฉด, ์์ $\textrm{CrossEnt}(p, \hat{p})$์ Gradient Descent ๋ฐฉ๋ฒ์ ์ทจํจ์ผ๋ก์จ Softmax Regression Model์ ์ต์ ํํ ์ ์๋ค!
๋งบ์๋ง
๋ณธ ๊ธ์์๋ Multi-class Classification์ GLM์ ๊ด์ ์์ ์ดํด๋ณด์๋ค. ๋ด์ฉ์ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
- Multi-class Classification์ Multinomial์์ ์ถ๋ฐํ๋ค.
- softmax function ํจ์๋ $\eta$๋ฅผ $\phi$๋ก ๋งคํํ๋ response function์ด๋ค.
- Cross Entropy๋ ์ ๋ต ๋ ์ด๋ธ $p(y)$๊ณผ softmax function์ผ๋ก ์ป์ predicted probability $\hat{p}(y)$ ์ฌ์ด์ ์ค์ฐจ๋ฅผ ์ ์ํ๋ ํจ์์ด๋ค.