Model-based Clustering
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
์์์ ์ดํด๋ณธ <K-means>์ <hierarchical> clustering์ ํด๋ฆฌ์คํฑ ๊ธฐ๋ฒ์ ์ํ๋ค. ์ด๋ค ๋ชจ๋ธ์ด ์๋ ๊ฒ์ด ์๋๊ธฐ ๋๋ฌธ์, statistical inference ์ญ์ ๋ถ๊ฐ๋ฅํ๋ค. ๋ํ, ์ค์ ์์๋ categorical variable ๋๋ฌธ์ โdissimilarity measureโ๋ฅผ ์ ์ํ๋ ๊ฒ๋ ์ฝ์ง ์๋ค.
<Model-based cluastering>์ ๋ฐ์ดํฐ์ ์ ๋ชจ๋ธ, ์ฆ PDF $\text{Pr}(x)$์ estimation ํ๋ ๊ธฐ๋ฒ์ด๋ค!
2์ฐจ์ ๋ฐ์ดํฐ์์ non-parameteric method๋ก $\text{Pr}(x)$๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ์ด๋ ต์ง ์๋ค!
Mixture Model
2์ฐจ์ ๋ฐ์ดํฐ์์ PDF $\text{Pr}(x)$๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ์ด๋ ต์ง ์๋ค. ๊ทธ๋ฌ๋ 3์ฐจ์๋ถํฐ๋ PDF๋ฅผ ์ถ์ ํ๊ธฐ ์ฝ์ง ์์ผ๋ฉฐ, ์ด๊ฒ์ visualize ํ๋ ๊ฒ๋ clustering ํ๋ ๊ฒ๋ ํ๋ ์ผ์ด๋ค.
์ด๋ฐ ๊ณ ์ฐจ์์์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฐ๋ ๊ธฐ๋ฒ์ด ๋ฐ๋ก <Mixture Model>์ด๋ค! ์ฐธ๊ณ ๋ก <Mixture Model>์ โparametericโ ๊ธฐ๋ฒ์ด๋ค.
Let $P = \{ f_{\phi}(\cdot) : \phi \in \mathcal{P} \}$ be a parameteric model. ์ด๋, $f_{\phi}(x)$๋ ์ด๋ค pdf๋ก ์๋ฅผ ๋ค๋ฉด, ์ด๋ฐ ํํ๋ค:
\[f_{\phi}(x) = N(x \mid \mu, \sigma^2)\]$f_{\phi}(x)$์์ $\phi$๋ parameter์ด๋ฉฐ, ์งํฉ $P$๋ ๊ฐ๋ฅํ ๋ชจ๋ $\phi$์ ๋ํ PDF์ ๋ชจ์์ธ ๊ฒ์ด๋ค.
์ด๋ฒ์๋ $K$-cluster๋ฅผ ํํํ๋ parameteric PDF๋ฅผ $f_{\phi_k}(x)$๋ผ๊ณ ํ ๋, ์๋์ ๊ฐ์ PDF์ ๋ชจ์; collection of densities๋ฅผ ์ ์ํด๋ณด์. ๋ณ๊ฑด ์๋๊ณ , ๊ทธ๋ฅ cluster PDF์ ๊ฐ์คํฉ์ ์กฐํฉ์ด๋ค.
\[\left\{ \sum_{k=1}^K \pi_k f_{\phi_k}(\cdot) \; : \; \phi_k \in \mathcal{P}, \pi_k > 0, \sum_{k=1}^K \pi_k = 1\right\}\]์ด๊ฒ์ <K-component mixture model>์ด๋ผ๊ณ ํ๋ค! ์ด๋, $\pi_k$๋ฅผ โmixing proportionโ์ด๋ผ๊ณ ํ๋ค.
๐ฅ NOTE: ์์์ ์ ์ํ <K-component mixture model> ์ญ์ PDF๊ฐ ๋๋ค. ์ฆ๋ช ์ ํ๋ฅ ๅ์ด 1์ด ๋๋์ง ํ์ธํด๋ณด๋ฉด ๋๋๋ฐ, ์ฝ๋ค.
component๋ฅผ ๋ช๊ฐ ์ฐ๋์ง์ ๋ฐ๋ผ ๋ถํฌ์์ ๋ํ๋๋ mode์ ์ต๋ ๊ฐฏ์๊ฐ ๋ฌ๋ผ์ง๋ค.
Let $X_1, \dots, X_n$ be iid from a <K-component mixture>; Data point $X_i$๊ฐ mixture model์์ ์ํ๋ง ๋์๋ค๊ณ ๊ฐ์ ํ๋ค.
์ฐ๋ฆฌ๋ Data points $\{ X_1, \dots, X_n \}$๋ก๋ถํฐ parameter $\theta$๋ฅผ ์ถ์ ํด์ผ ํ๋ค. ํ์ฌ ์ฐ๋ฆฌ๋ $\theta$๋ฅผ ๋ชจ๋ฅด๋(unknown) ์ํ๋ฉฐ, ๊ทธ ํํ๋ ์๋์ ๊ฐ๋ค.
\[\theta = (\pi_1, \dots, \pi_K, \; \phi_1, \dots, \phi_K)^T\]์ฐ๋ฆฌ๋ ์ด unknown parameter $\phi$๋ฅผ ์ถ์ ํ๊ธฐ ์ํด MLE๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค.
Algorithm. MLE
Find $\theta$ such that maximize $\ell(\theta)$.
์๋ง ๋ณดํต์ MLE ๋ฌธ์ ๋ ์์ log-likelihood function์ ํธ๋ฏธ๋ถ ํด์, optimal solution์ ์ฐพ๋๋ค. ํ์ง๋ง, ์ด ๋ฌธ์ ์ ๊ฒฝ์ฐ, ์ฐพ์์ผ ํ๋ ๋ณ์๊ฐ $2K$ ์ ๋ ๋๊ธฐ ๋๋ฌธ์, ํธ๋ฏธ๋ถ์ผ๋ก๋ ์ฝ๊ฒ ํ ์ ์๋ค. ์ฌ์ง์ด Gradient Descent ๊ฐ์ numerical method๋ฅผ ์ฐ๋ ๊ฒ ์ญ์ ์ด๋ ต๋ค๊ณ ํ๋ค.
๊ทธ๋ฌ๋ ๋ฐฉ๋ฒ์ ์๋ค!! ์ด๋ฐ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ <EMAlgorithm; Expectation-Maximization>์ ์ฌ์ฉํ ๊ฒ์ด๋ค!! ๐
EM Algorithm
๋จผ์ <EM Algorithm>์ด ๋ญ์ง ๊ทธ ์ ์๋ถํฐ ์ดํด๋ณด์.
EM is a general algorithm to find the MLE when a part of data is missing.
EM์์๋ ์ด๋ฐ missing data๋ฅผ ์ ์ฌ๋ณ์, โlatent variableโ $Z$๋ผ๊ณ ํ๋ค. ๊ทธ๋์ EM์์ ์ฐ๋ ๋ฐ์ดํฐ $Y$๋ ์๋์ ๊ฐ์ด ํํ๋๋ค.
Let $Y = (X, Z)$ be a random vector following a density $p_{\theta}(\cdot)$ where $X$ is the โobsesrved dataโ and $Z$ is the โmissing dataโ.
missing data $Z$๊ฐ ๋์ ๋์์ง๋ง, ์ฌ์ ํ ์ฐ๋ฆฌ์ ๋ชฉํ๋ observed data $X$๋ก likelihood๋ฅผ ์ต๋๊ฐ์ผ๋ก ๋ง๋๋ $\theta$๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค!
Let $\ell(\theta; X, Z) = \log p_{\theta}(Y)$ be the โcomplete log-likelihoodโ; ๋จผ์ $X$์ $Z$๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๋ log-likelihood function์ ์ ์ํ๋ค.
์ฌ๊ธฐ์ ์ ๊น Insight๋ฅผ ์ป๊ณ ๊ฐ์. โLee-jaejoonโ๋์ ํฌ์คํธ์ ํฌ์คํธ๋ฅผ ๋ง์ด ์ฐธ๊ณ ํ๋ค.
1. ๋ง์ฝ ๋ชจ๋ ํ๋ฅ ๋ณ์๊ฐ ๊ด์ธก ๊ฐ๋ฅํ๋ค๋ฉด, ์ฆ, $Z = \emptyset$.
์ฐ๋ฆฌ๋ $\theta$์ ๊ฐ์ ์ถ์ ํ๋ $\hat{\theta}$๋ฅผ ์ป์ ์ ์์์ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ ๊ด์ธกํ์ง ๋ชปํ $Z$๊ฐ ์กด์ฌํ๋ฏ๋ก, $\theta$์ ๊ฐ์ ์ถ์ ํ ์ ์๋ค.
2. ๋ง์ฝ $\theta$์ ๊ฐ์ ์๊ณ ์์๋ค๋ฉด,
์ฐ๋ฆฌ๋ ์ด๊ฑธ๋ก ํ๋ฅ ๋ถํฌ๋ฅผ ์์ ํ ํน์ ํ ์ ์๊ธฐ ๋๋ฌธ์, ๊ด์ธก๋์ง ์์ $Z$์ ๋ถํฌ๋ ์ ์ ์๋ค.
๊ทธ๋ฌ๋ parameter $\theta$๋ unknown์ด๊ธฐ ๋๋ฌธ์ $Z$์ ๋ถํฌ ์ญ์ ์ ์ ์๋ค.
์ฆ, ํ์ฌ์ ์ํฉ์ $Z$๋ฅผ ๋ชจ๋ฅด๋ $\theta$๋ฅผ ๋ชจ๋ฅด๊ณ , ๋ฐ๋๋ก $\theta$๋ฅผ ๋ชจ๋ฅด๋ $Z$๋ฅผ ๋ชจ๋ฅด๋ ์ํฉ์ด๋ค.
<EM Algorithm>์ โ๋ง์ฝ $\theta$๋ฅผ ์๋ค๋ฉด?โ๋ผ๋ ์์ด๋์ด๋ก ์ด ์ํฉ์ ํด๊ฒฐํ๋ค.
Algorithm. EM Algorithm
1. Initialize Parameter
\[\theta \leftarrow \theta^{(0)}\]2. Expectation Step; E-Step
๋ง์ฝ ์ฐ๋ฆฌ๊ฐ $\theta$์ ๊ฐ์ด $\theta^{(0)}$๋ผ๋ ๊ฒ์ ์๊ณ ์๋ค๋ฉด, ๋ ๊ด์ธกํ ๋ฐ์ดํฐ $X$๊ฐ ์๋ค๋ฉด, ์ฐ๋ฆฌ๋ ์ด๋ฅผ ํตํด ๊ด์ธกํ์ง ๋ชปํ missing data $Z$์ โ์กฐ๊ฑด๋ถ ๋ถํฌโ์ ๊ตฌํ ์ ์๋ค.
\[\text{Pr}(Z \mid X = x, \; \theta = \theta^{(0)})\]is a conditional distribution of $Z$ given $X=x$ and $\theta = \theta^{(0)}$.
์ฐ๋ฆฌ๋ ์ด $Z$์ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ํ์ฉํด log-likelihood์์ $Z$๋ฅผ marginalize ์ํฌ ๊ฒ์ด๋ค. ์ด๊ฒ์ ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ฅด๋ $Z$๋ฅผ ์์ ์ฃผ๊ธฐ ๋๋ฌธ์ ์ถฉ๋ถํ ๊ทธ๋ด๋ฏํ ์ ๊ทผ์ด๋ค! ์ด๊ฒ์ ํํํ๋ฉด ์๋์ ๊ฐ๋ค.
\[E_{Z \mid X, \theta^{(0)}} \; \ell(\theta; X, Z) = \sum_{Z} \ell(\theta^{(0)}; X=x, z) \cdot p_{\theta^{(0)}} (z \mid X=x)\]์ด๊ฒ์ missing data $Z$์ ๊ฐ๋ฅํ ๊ฐ๋ค์ ๋ํ ํ๊ท ์ ์ธ log-likelihood์ด๋ค. ์ฆ, $Z$๊ฐ ์ ํํ ์ด๋ค ๊ฐ์ ๊ฐ๋์ง๋ ๋ชจ๋ฅด์ง๋ง, $Z$๊ฐ ๊ฐ์ง ์ ์๋ ๊ฐ๋ค์ ๋ํด log-likelihood๊ฐ ํ๊ท ์ ์ผ๋ก ์ด๋ค ์์์ธ์ง๋ฅผ ๋ํ๋ด์ฃผ๋ โํจ์โ๋ค.
์ฐ๋ฆฌ๋ ์ด๊ฒ์ โlog-likelihood์ ๋ํโ๋ผ๋ ์๋ฏธ์์ โsurrogate functionโ $Q(\theta \mid \theta^{(0)}$๋ผ๊ณ ๋ถ๋ฅธ๋ค.
\[Q(\theta \mid \theta^{(0)}) = E_{Z \mid X, \theta^{(0)}} \; \ell(\theta; X, Z)\]3. Maximization Step; M-Step
์ด์ ์ฐ๋ฆฌ๋ $Z$๋ฅผ marginalize outํ, missing data์์ ์์ ๋ก์ด surrogate function $Q(\theta \mid \theta^{(0)})$๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์ฐ๋ฆฌ๋ฅผ ์ด $Q(\theta \mid \theta^{(0)})$๋ฅผ ๋ง์น ์ฐ๋ฆฌ๊ฐ ๋ณธ๋ ๋ชฉํ๋ก ํ๋ likelihood ํจ์๋ก ์ทจ๊ธ์ ์ด๊ฒ์ ๋ํด maximize ํ๋ $\theta$๋ฅผ ์ฐพ์์ค ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฐ $\theta$๋ฅผ ์ฐพ์๋ค๋ฉด, ๊ทธ๊ฒ์ ์๋ก์ด $\theta$ ๊ฐ์ผ๋ก ์ฌ์ฉํ๋ค!!
\[\theta^{(1)} = \underset{\theta}{\text{argmax}} \; Q(\theta \mid \theta^{(0)})\]4. Repeat Until Converge!
์ง๊ธ์ ๋ฐ์๋, ์ถํ์ ๋ง๋ฌด๋ฆฌ ํ๊ฒ ์ต๋๋ค!