2021-1ํ•™๊ธฐ, ๋Œ€ํ•™์—์„œ โ€˜ํ†ต๊ณ„์  ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹โ€™ ์ˆ˜์—…์„ ๋“ฃ๊ณ  ๊ณต๋ถ€ํ•œ ๋ฐ”๋ฅผ ์ •๋ฆฌํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค. ์ง€์ ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค :)

7 minute read

2021-1ํ•™๊ธฐ, ๋Œ€ํ•™์—์„œ โ€˜ํ†ต๊ณ„์  ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹โ€™ ์ˆ˜์—…์„ ๋“ฃ๊ณ  ๊ณต๋ถ€ํ•œ ๋ฐ”๋ฅผ ์ •๋ฆฌํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค. ์ง€์ ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค :)

์•ž์—์„œ ์‚ดํŽด๋ณธ <K-means>์™€ <hierarchical> clustering์€ ํœด๋ฆฌ์Šคํ‹ฑ ๊ธฐ๋ฒ•์— ์†ํ•œ๋‹ค. ์–ด๋–ค ๋ชจ๋ธ์ด ์žˆ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์—, statistical inference ์—ญ์‹œ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ๋˜ํ•œ, ์‹ค์ „์—์„œ๋Š” categorical variable ๋•Œ๋ฌธ์— โ€œdissimilarity measureโ€๋ฅผ ์ •์˜ํ•˜๋Š” ๊ฒƒ๋„ ์‰ฝ์ง€ ์•Š๋‹ค.

<Model-based cluastering>์€ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ชจ๋ธ, ์ฆ‰ PDF Pr(x)์„ estimation ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค!

2์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ non-parameteric method๋กœ Pr(x)๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ต์ง€ ์•Š๋‹ค!


Mixture ModelPermalink

2์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ PDF Pr(x)๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ต์ง€ ์•Š๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ 3์ฐจ์›๋ถ€ํ„ฐ๋Š” PDF๋ฅผ ์ถ”์ •ํ•˜๊ธฐ ์‰ฝ์ง€ ์•Š์œผ๋ฉฐ, ์ด๊ฒƒ์„ visualize ํ•˜๋Š” ๊ฒƒ๋„ clustering ํ•˜๋Š” ๊ฒƒ๋„ ํž˜๋“  ์ผ์ด๋‹ค.

์ด๋Ÿฐ ๊ณ ์ฐจ์›์—์„œ์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์“ฐ๋Š” ๊ธฐ๋ฒ•์ด ๋ฐ”๋กœ <Mixture Model>์ด๋‹ค! ์ฐธ๊ณ ๋กœ <Mixture Model>์€ โ€œparametericโ€ ๊ธฐ๋ฒ•์ด๋‹ค.


Let P={fฯ•(โ‹…):ฯ•โˆˆP} be a parameteric model. ์ด๋•Œ, fฯ•(x)๋Š” ์–ด๋–ค pdf๋กœ ์˜ˆ๋ฅผ ๋“ค๋ฉด, ์ด๋Ÿฐ ํ˜•ํƒœ๋‹ค:

fฯ•(x)=N(xโˆฃฮผ,ฯƒ2)

fฯ•(x)์—์„œ ฯ•๋Š” parameter์ด๋ฉฐ, ์ง‘ํ•ฉ P๋Š” ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ฯ•์— ๋Œ€ํ•œ PDF์˜ ๋ชจ์Œ์ธ ๊ฒƒ์ด๋‹ค.


์ด๋ฒˆ์—๋Š” K-cluster๋ฅผ ํ‘œํ˜„ํ•˜๋Š” parameteric PDF๋ฅผ fฯ•k(x)๋ผ๊ณ  ํ•  ๋•Œ, ์•„๋ž˜์™€ ๊ฐ™์€ PDF์˜ ๋ชจ์Œ; collection of densities๋ฅผ ์ •์˜ํ•ด๋ณด์ž. ๋ณ„๊ฑด ์•„๋‹ˆ๊ณ , ๊ทธ๋ƒฅ cluster PDF์˜ ๊ฐ€์ค‘ํ•ฉ์˜ ์กฐํ•ฉ์ด๋‹ค.

{โˆ‘k=1Kฯ€kfฯ•k(โ‹…):ฯ•kโˆˆP,ฯ€k>0,โˆ‘k=1Kฯ€k=1}

์ด๊ฒƒ์„ <K-component mixture model>์ด๋ผ๊ณ  ํ•œ๋‹ค! ์ด๋•Œ, ฯ€k๋ฅผ โ€œmixing proportionโ€์ด๋ผ๊ณ  ํ•œ๋‹ค.

๐Ÿ’ฅ NOTE: ์œ„์—์„œ ์ •์˜ํ•œ <K-component mixture model> ์—ญ์‹œ PDF๊ฐ€ ๋œ๋‹ค. ์ฆ๋ช…์€ ํ™•๋ฅ ๅˆ์ด 1์ด ๋˜๋Š”์ง€ ํ™•์ธํ•ด๋ณด๋ฉด ๋˜๋Š”๋ฐ, ์‰ฝ๋‹ค.

component๋ฅผ ๋ช‡๊ฐœ ์“ฐ๋Š”์ง€์— ๋”ฐ๋ผ ๋ถ„ํฌ์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” mode์˜ ์ตœ๋Œ€ ๊ฐฏ์ˆ˜๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค.


Let X1,โ€ฆ,Xn be iid from a <K-component mixture>; Data point Xi๊ฐ€ mixture model์—์„œ ์ƒ˜ํ”Œ๋ง ๋˜์—ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

์šฐ๋ฆฌ๋Š” Data points {X1,โ€ฆ,Xn}๋กœ๋ถ€ํ„ฐ parameter ฮธ๋ฅผ ์ถ”์ •ํ•ด์•ผ ํ•œ๋‹ค. ํ˜„์žฌ ์šฐ๋ฆฌ๋Š” ฮธ๋ฅผ ๋ชจ๋ฅด๋Š”(unknown) ์ƒํƒœ๋ฉฐ, ๊ทธ ํ˜•ํƒœ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

ฮธ=(ฯ€1,โ€ฆ,ฯ€K,ฯ•1,โ€ฆ,ฯ•K)T

์šฐ๋ฆฌ๋Š” ์ด unknown parameter ฯ•๋ฅผ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด MLE๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค.

Algorithm. MLE

Find ฮธ such that maximize โ„“(ฮธ).

โ„“(ฮธ)=โˆ‘i=1nlogโก(โˆ‘k=1Kฯ€kfฯ•k(Xi))

์•„๋งˆ ๋ณดํ†ต์˜ MLE ๋ฌธ์ œ๋Š” ์œ„์˜ log-likelihood function์— ํŽธ๋ฏธ๋ถ„ ํ•ด์„œ, optimal solution์„ ์ฐพ๋Š”๋‹ค. ํ•˜์ง€๋งŒ, ์ด ๋ฌธ์ œ์˜ ๊ฒฝ์šฐ, ์ฐพ์•„์•ผ ํ•˜๋Š” ๋ณ€์ˆ˜๊ฐ€ 2K ์ •๋„ ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ํŽธ๋ฏธ๋ถ„์œผ๋กœ๋Š” ์‰ฝ๊ฒŒ ํ’€ ์ˆ˜ ์—†๋‹ค. ์‹ฌ์ง€์–ด Gradient Descent ๊ฐ™์€ numerical method๋ฅผ ์“ฐ๋Š” ๊ฒƒ ์—ญ์‹œ ์–ด๋ ต๋‹ค๊ณ  ํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋ฐฉ๋ฒ•์€ ์žˆ๋‹ค!! ์ด๋Ÿฐ ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” <EMAlgorithm; Expectation-Maximization>์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค!! ๐Ÿ˜Ž


EM AlgorithmPermalink

๋จผ์ € <EM Algorithm>์ด ๋ญ”์ง€ ๊ทธ ์ •์˜๋ถ€ํ„ฐ ์‚ดํŽด๋ณด์ž.

EM is a general algorithm to find the MLE when a part of data is missing.

EM์—์„œ๋Š” ์ด๋Ÿฐ missing data๋ฅผ ์ž ์žฌ๋ณ€์ˆ˜, โ€œlatent variableโ€ Z๋ผ๊ณ  ํ•œ๋‹ค. ๊ทธ๋ž˜์„œ EM์—์„œ ์“ฐ๋Š” ๋ฐ์ดํ„ฐ Y๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ํ‘œํ˜„๋œ๋‹ค.

Let Y=(X,Z) be a random vector following a density pฮธ(โ‹…) where X is the โ€œobsesrved dataโ€ and Z is the โ€œmissing dataโ€.

missing data Z๊ฐ€ ๋„์ž…๋˜์—ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” observed data X๋กœ likelihood๋ฅผ ์ตœ๋Œ€๊ฐ’์œผ๋กœ ๋งŒ๋“œ๋Š” ฮธ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค!


Let โ„“(ฮธ;X,Z)=logโกpฮธ(Y) be the โ€œcomplete log-likelihoodโ€; ๋จผ์ € X์™€ Z๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜๋Š” log-likelihood function์„ ์ •์˜ํ•œ๋‹ค.

์—ฌ๊ธฐ์„œ ์ž ๊น Insight๋ฅผ ์–ป๊ณ  ๊ฐ€์ž. โ€˜Lee-jaejoonโ€™๋‹˜์˜ ํฌ์ŠคํŠธ์˜ ํฌ์ŠคํŠธ๋ฅผ ๋งŽ์ด ์ฐธ๊ณ ํ–ˆ๋‹ค.

1. ๋งŒ์•ฝ ๋ชจ๋“  ํ™•๋ฅ ๋ณ€์ˆ˜๊ฐ€ ๊ด€์ธก ๊ฐ€๋Šฅํ–ˆ๋‹ค๋ฉด, ์ฆ‰, Z=โˆ….

์šฐ๋ฆฌ๋Š” ฮธ์˜ ๊ฐ’์„ ์ถ”์ •ํ•˜๋Š” ฮธ^๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์„ ๊ฒƒ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๋Š” ๊ด€์ธกํ•˜์ง€ ๋ชปํ•œ Z๊ฐ€ ์กด์žฌํ•˜๋ฏ€๋กœ, ฮธ์˜ ๊ฐ’์„ ์ถ”์ •ํ•  ์ˆ˜ ์—†๋‹ค.


2. ๋งŒ์•ฝ ฮธ์˜ ๊ฐ’์„ ์•Œ๊ณ  ์žˆ์—ˆ๋‹ค๋ฉด,

์šฐ๋ฆฌ๋Š” ์ด๊ฑธ๋กœ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ์™„์ „ํžˆ ํŠน์ •ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ๊ด€์ธก๋˜์ง€ ์•Š์€ Z์˜ ๋ถ„ํฌ๋„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ parameter ฮธ๋Š” unknown์ด๊ธฐ ๋•Œ๋ฌธ์— Z์˜ ๋ถ„ํฌ ์—ญ์‹œ ์•Œ ์ˆ˜ ์—†๋‹ค.

์ฆ‰, ํ˜„์žฌ์˜ ์ƒํ™ฉ์€ Z๋ฅผ ๋ชจ๋ฅด๋‹ˆ ฮธ๋ฅผ ๋ชจ๋ฅด๊ณ , ๋ฐ˜๋Œ€๋กœ ฮธ๋ฅผ ๋ชจ๋ฅด๋‹ˆ Z๋ฅผ ๋ชจ๋ฅด๋Š” ์ƒํ™ฉ์ด๋‹ค.

<EM Algorithm>์€ โ€œ๋งŒ์•ฝ ฮธ๋ฅผ ์•ˆ๋‹ค๋ฉด?โ€๋ผ๋Š” ์•„์ด๋””์–ด๋กœ ์ด ์ƒํ™ฉ์„ ํ•ด๊ฒฐํ•œ๋‹ค.

Algorithm. EM Algorithm

1. Initialize Parameter

ฮธโ†ฮธ(0)

2. Expectation Step; E-Step

๋งŒ์•ฝ ์šฐ๋ฆฌ๊ฐ€ ฮธ์˜ ๊ฐ’์ด ฮธ(0)๋ผ๋Š” ๊ฒƒ์„ ์•Œ๊ณ  ์žˆ๋‹ค๋ฉด, ๋˜ ๊ด€์ธกํ•œ ๋ฐ์ดํ„ฐ X๊ฐ€ ์žˆ๋‹ค๋ฉด, ์šฐ๋ฆฌ๋Š” ์ด๋ฅผ ํ†ตํ•ด ๊ด€์ธกํ•˜์ง€ ๋ชปํ•œ missing data Z์˜ โ€˜์กฐ๊ฑด๋ถ€ ๋ถ„ํฌโ€˜์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

Pr(ZโˆฃX=x,ฮธ=ฮธ(0))

is a conditional distribution of Z given X=x and ฮธ=ฮธ(0).

์šฐ๋ฆฌ๋Š” ์ด Z์˜ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋ฅผ ํ™œ์šฉํ•ด log-likelihood์—์„œ Z๋ฅผ marginalize ์‹œํ‚ฌ ๊ฒƒ์ด๋‹ค. ์ด๊ฒƒ์€ ์šฐ๋ฆฌ๊ฐ€ ๋ชจ๋ฅด๋Š” Z๋ฅผ ์—†์• ์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ์ถฉ๋ถ„ํžˆ ๊ทธ๋Ÿด๋“ฏํ•œ ์ ‘๊ทผ์ด๋‹ค! ์ด๊ฒƒ์„ ํ‘œํ˜„ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

EZโˆฃX,ฮธ(0)โ„“(ฮธ;X,Z)=โˆ‘Zโ„“(ฮธ(0);X=x,z)โ‹…pฮธ(0)(zโˆฃX=x)

์ด๊ฒƒ์€ missing data Z์— ๊ฐ€๋Šฅํ•œ ๊ฐ’๋“ค์— ๋Œ€ํ•œ ํ‰๊ท ์ ์ธ log-likelihood์ด๋‹ค. ์ฆ‰, Z๊ฐ€ ์ •ํ™•ํžˆ ์–ด๋–ค ๊ฐ’์„ ๊ฐ–๋Š”์ง€๋Š” ๋ชจ๋ฅด์ง€๋งŒ, Z๊ฐ€ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ’๋“ค์— ๋Œ€ํ•ด log-likelihood๊ฐ€ ํ‰๊ท ์ ์œผ๋กœ ์–ด๋–ค ์–‘์ƒ์ธ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด์ฃผ๋Š” โ€˜ํ•จ์ˆ˜โ€™๋‹ค.

์šฐ๋ฆฌ๋Š” ์ด๊ฒƒ์„ โ€˜log-likelihood์˜ ๋Œ€ํƒ€โ€™๋ผ๋Š” ์˜๋ฏธ์—์„œ โ€œsurrogate functionโ€ Q(ฮธโˆฃฮธ(0)๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

Q(ฮธโˆฃฮธ(0))=EZโˆฃX,ฮธ(0)โ„“(ฮธ;X,Z)


3. Maximization Step; M-Step

์ด์ œ ์šฐ๋ฆฌ๋Š” Z๋ฅผ marginalize outํ•œ, missing data์—์„œ ์ž์œ ๋กœ์šด surrogate function Q(ฮธโˆฃฮธ(0))๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์šฐ๋ฆฌ๋ฅผ ์ด Q(ฮธโˆฃฮธ(0))๋ฅผ ๋งˆ์น˜ ์šฐ๋ฆฌ๊ฐ€ ๋ณธ๋ž˜ ๋ชฉํ‘œ๋กœ ํ–ˆ๋˜ likelihood ํ•จ์ˆ˜๋กœ ์ทจ๊ธ‰์— ์ด๊ฒƒ์— ๋Œ€ํ•ด maximize ํ•˜๋Š” ฮธ๋ฅผ ์ฐพ์•„์ค„ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ๋Ÿฐ ฮธ๋ฅผ ์ฐพ์•˜๋‹ค๋ฉด, ๊ทธ๊ฒƒ์„ ์ƒˆ๋กœ์šด ฮธ ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค!!

ฮธ(1)=argmaxฮธQ(ฮธโˆฃฮธ(0))

4. Repeat Until Converge!

์ง€๊ธˆ์€ ๋ฐ”์˜๋‹ˆ, ์ถ”ํ›„์— ๋งˆ๋ฌด๋ฆฌ ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค!


referencesPermalink