Clustering of Maximum Spacing
2020-1ํ๊ธฐ, ๋ํ์์ โ์๊ณ ๋ฆฌ์ฆโ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
Kruskalโs Algorithm & Primโs Algorithm์์ ์ด์ด์ง๋ ํฌ์คํธ์ ๋๋ค.
<clustering>์ด๋ ์ฃผ์ด์ง $n$๊ฐ์ ๋์์ ์๋ก ๊ด๋ จ์๋ ๊ฒ๋ผ๋ฆฌ ๋ฌถ์ด ๊ทธ๋ฃนํ ํ๋ ๊ฒ์ ๋งํ๋ค. ๊ทธ๋์ $k$-clustering์ด๋ผ ํ๋ฉด $n$๊ฐ ๋์์ $k$๊ฐ์ non-empty group์ผ๋ก ๋ถํ ํ๋ ๊ฒ์ ๋งํ๋ค.
๊ทธ๋ฐ๋ฐ ์ด๋ค clustering์ด ์ข์ clustering์ผ๊น? ๋ณดํต์ ๊ด๋ จ ์๋ ๊ฒ๋ผ๋ฆฌ๋ ๊ฐ๊น๊ฒ ๋ ๊ด๋ จ ์๋ ๊ฒ๋ผ๋ฆฌ๋ ๋ฉ๊ฒ ํ๋ clustering์ โ์ข์ clusteringโ์ด๋ผ๊ณ ํ๋ค. ์ด โ๊ด๋ จ๋จ(coherence) ๋ฅผ ์์น์ ์ผ๋ก ํํํ๊ธฐ ์ํด์ <distance function>๊ณผ <spacing>์ด๋ผ๋ ๊ฐ๋ ์ด ๋ฑ์ฅํ๋ค.
<distance function>์ ๋ ๋ฌผ์ฒด ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ ํจ์์ด๋ค. ์ฐ๋ฆฌ๋ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ธ ์๋ก coherent ํ๋ค๊ณ ํ๋จํ๋ค. <distance function>์ผ๋ก๋ Euclide distance๋ $L_1$ distance ๋ฑ์ด ๋ํ์ ์ด๋ค.
์ฐ๋ฆฌ๋ ๋ ํด๋ฌ์คํฐ ์ฌ์ด์์๋ ๊ฑฐ๋ฆฌ๋ฅผ ๋งค๊ธธ ์ ์๋๋ฐ, ์ด๊ฒ์ cluster distance๋ผ๊ณ ํ์. ์ด๊ฒ์ ๋ ํด๋ฌ์คํฐ $C_1$, $C_2$์ ๊ฐ๊ฐ ์ํ๋ ๋ ์ ์ ๋ํด ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ์ ๋ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฑฐ๋ฆฌ๋ฅผ ์๋ฏธํ๋ค. ์์์ผ๋ก ์ ์ผ๋ฉด
\[\text{cluster dist}(C_1, C_2) = \min_{p_i, \; p_j} \, \text{dist}(p_i, p_j) \quad \text{where} \; p_i \in C_1, \; p_j \in C_2\]์ด์ <spacing>์ ์ ์ํด๋ณด์. <spacing>์ ํด๋ฌ์คํฐ ์ฌ์ด์ cluster distance ์ค ๊ฐ์ฅ ์์ distance๋ฅผ ๋งํ๋ค.
\[\text{spacing} = \min_{C_a, \, C_b} \; \text{cluster dist} (C_a, C_b)\]๋ค์ ๋ณธ๋ก ์ผ๋ก ๋์์์ โ์ข์ clusteringโ์ด๋ ๋ฌด์์ผ๊น? ์ฐ๋ฆฌ๋ ์ด๊ฒ์ ๊ฐ๋ฅํ ๋ชจ๋ $k$-clustering ์ค์์ maximum spacing์ ๊ฐ์ง๋ cluster๋ฅผ ๊ฐ์ฅ ์ข์ clustering์ด๋ผ๊ณ ์ ํ ๊ฒ์ด๋ค. ์ด๊ฒ์ด ์ด๋ฒ ํฌ์คํธ์ ์ฃผ์ โclustering of max. spacingโ์ด๋ค ๐
๊ทธ๋ ๋ด โclustering of max. spacingโ๋ฅผ ์ด๋ป๊ฒ ์ฐพ์ ์ ์์๊น? Brute Forceํ๊ฒ ์ ๊ทผํ๋ค๋ฉด ๋น์ฐํ ์กฐํฉ ํญ๋ฐ์ ๊ฒฝํํ ๊ฒ์ด๋ค. ์ด๋, ์ข์ ์ ๋ฆฌ๊ฐ ์๋๋ฐ MST์์ ๊ฐ์ฅ ๋น์ผ ๊ฐ์ $k-1$๊ฐ๋ฅผ ์ญ์ ํ๋ฉด $k$-clustering of max. spacing์ ์ป์ ์ ์๋ค๋ ๊ฒ์ด๋ค!
Theorem.
Let $C^{*}$ denote the clustering $C_1^{*}, โฆ, C_k^{*}$ formed by delete the $k-1$ most expensive edges of a MST. Then, $C^{*}$ is a $k$-clustering of max. spacing.
proof. (๊ท๋ฅ๋ฒ)
clustering $C^{*}$์ spacing $d^{*}$๋ MST์ $(k-1)$๋ฒ์งธ๋ก ๋น์ผ ๊ฐ์ ์ผ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๋ optimal clustering $C$๊ฐ ์์ด ๊ทธ ๋์ spacing์ด $d \ge d^{*}$๋ผ๊ณ ํ์.
$C^{*}$์ clustering ์ค ํ๋์ธ $C_r^{*}$์ ์ํ ๋ ์ $p_i$, $p_j$์ ๋ํด ์ดํด๋ณด์. ๊ทธ๋ฐ๋ฐ ์ด ๋ ์ ์ด $C$์์๋ $C_s$, $C_t$์ ์ํด ์๋ก ๋ถ๋ฆฌ๋ ์ํ๋ผ๊ณ ํ์. ์ฆ, $p_i \in C_s$, $p_j \in C_t$์ธ ๊ฒ์ด๋ค.
$C_r^{*}$ ์์์ $p_i$์์ $p_j$๋ก ๊ฐ๋ ๊ฒฝ๋ก๋ฅผ ์๊ฐํด๋ณด์. ์ด๋ ์ค๊ฐ์ ์ด๋ค ๊ฐ์ $(p, q)$๋ $C$์์์ ๋ ํด๋ฌ์คํฐ $C_s$, $C_r$๋ฅผ ๊ฐ๋ฅด๋ clustrer distance๊ฐ ๋ ๊ฒ์ด๋ค. $p_i \rightarrow p_j$ ๊ฒฝ๋ก์ ๋ชจ๋ ๊ฐ์ ์ MST์ ์ ์์ ๋ฐ๋ผ $(k-1)$๋ฒ์งธ ๊ฐ์ ์ธ $d^{*}$์ ๊ธธ์ด๋ณด๋ค๋ ์์ ๊ฒ์ด๋ค. ๋ฐ๋ผ์
\[\left| pq \right| \le d^{*}\]์ด๋ผ! $C$์ ์ ์ํ ๋ spacing $d$๊ฐ $d \ge d^{*}$๋ผ๊ณ ์ ์ํ๋ค. ๊ทธ๋ฐ๋ฐ $C$์ ์๊ณ ๋ณด๋ $\left| pq \right| \le d^{*}$์ธ cluster distance $\left| pq \right|$๊ฐ ์กด์ฌํ๋ค. ์ด๊ฒ์ ๊ณง $d > d^{*}$๊ฐ ๋ถ๊ฐ๋ฅํจ์ ์๋ฏธํ๋ค. ๋ฐ๋ผ์ $d = d^{*}$์ด๋ฏ๋ก MST๋ก๋ถํฐ ์ ๋ํ clustering $C^{*}$์ clustering of max. spacing์ด๋ค! $\blacksquare$
์ด๊ฒ์ผ๋ก ์ ๊ท์์ ์์ ๋ค๋ฃฌ ๋ชจ๋ <Greedy Algorithm> ๋ฌธ์ ๋ฅผ ์ดํด๋ณด์๋ค. ๐