๋ณธ ๊ธ€์€ 2018-2ํ•™๊ธฐ Stanford Univ.์˜ Andrew Ng ๊ต์ˆ˜๋‹˜์˜ Machine Learning(CS229) ์ˆ˜์—…์˜ ๋‚ด์šฉ์„ ์ •๋ฆฌํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ง€์ ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค :)

3 minute read

๋ณธ ๊ธ€์€ 2018-2ํ•™๊ธฐ Stanford Univ.์˜ Andrew Ng ๊ต์ˆ˜๋‹˜์˜ Machine Learning(CS229) ์ˆ˜์—…์˜ ๋‚ด์šฉ์„ ์ •๋ฆฌํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ง€์ ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค :)

โ€“ lecture 3
โ€“ lecture 4


Perceptron AlgorithmPermalink

์ด๋ฒˆ์—๋Š” Learning Algorithm์˜ ์—ญ์‚ฌ์  ๋ฐฐ๊ฒฝ ์ค‘ ํ•˜๋‚˜์ธ Perceptron Algorithm์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด์ž!

Perceptron Algorithm์€ Logistic Regression์˜ sigmoid function g(z)๋ฅผ ์•ฝ๊ฐ„ ๋ณ€ํ˜•ํ•œ Threshold function์„ ์‚ฌ์šฉํ•œ๋‹ค.

g(z)={1if zโ‰ฅ00if z<0

hypothesis hฮธ(x)๋ฅผ hฮธ(x)=g(ฮธTx)๋กœ ๋‘๊ณ  Learning rule์„ ๊ธฐ์ˆ ํ•ด๋ณด๋ฉด

ฮธj:=ฮธjโˆ’ฮฑ(y(i)โˆ’hฮธ(x(i)))xj(i)

์•ž์„  Logistic Regression์ด๋‚˜ Perceptron์ด๋‚˜ ๋™์ผํ•œ rule๋กœ ฮธ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ชจ์Šต์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ๋‘˜์€ hฮธ(x)๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์—„์—ฐํžˆ ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค!

Perceptron์€ 1960๋…„ ๋Œ€์— ์ธ๊ฐ„์˜ Neuron์„ ๋ณธ๋œฌ ๋ชจ๋ธ์ด๋‹ค. ํ•˜์ง€๋งŒ, Logistic Regression๊ณผ Linear Regression๊ณผ๋Š” ๋‹ฌ๋ฆฌ ๋งˆ๋•…ํ•œ ํ†ต๊ณ„ํ•™์  ์˜๋ฏธ๋‚˜ Maximum Likelihood Estimation๊ณผ ์ ‘์ ์ด ์—†๋‹ค.


Newtonโ€™s MethodPermalink

ฮธ๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๋˜๋‹ค๋ฅธ Iterative Learning์„ ์‚ดํŽด๋ณด์ž!

Newtonโ€™s Method๋Š” real-valued function f์— ๋Œ€ํ•ด f(ฮธ)=0์ด ๋˜๋Š” ฮธ๋ฅผ ์ฐพ๋Š” ๋ฐฉ์‹์ด๋‹ค.

์šฐ๋ฆฌ๋Š” log likelihood l(ฮธ)๋ฅผ Maximizeํ•˜๋Š” ฮธ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋‹ค. ์ฆ‰, lโ€ฒ(ฮธ)๋ฅผ ์ฐพ์•„์•ผ ํ•˜๋ฉฐ, ์ด๊ฒƒ์„ Newtonโ€™s Method๋ฅผ ํ†ตํ•ด ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค!!

๊ทธ๋ฆฌ๊ณ  ๊ทธ ๊ทœ์น™์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

ฮธ:=ฮธโˆ’f(ฮธ)fโ€ฒ(ฮธ)


Newtonโ€™s Method๋Š” ์˜ค์ง linear function๋งŒ์„ ์‚ฌ์šฉํ•ด ํ•จ์ˆซ๊ฐ’์ด 0์ด ๋˜๋Š” ์ง€์ ์„ ์ฐพ๋Š” ๊ฐ€์žฅ ์›์ดˆ์ ์ธ ๋ฐฉ์‹์ด๋‹ค.

Newtonโ€™s Method๋Š” ์•ž์„  Gradient Descent ๋ฐฉ์‹๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, ๋งค์šฐ ์ ์€ step์œผ๋กœ ์ตœ์ ์˜ ฮธ๋ฅผ ์–ป๋Š”๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ฮธ๋Š” 1D real-value๊ฐ€ ์•„๋‹ˆ๋ผ N-dimensional real-valued vector์ด๋‹ค. ๊ทธ๋ž˜์„œ Newtonโ€™s Method๋ฅผ ์ผ๋ฐ˜ํ™”ํ•ด๋ณด์ž!

ฮธ(1):=ฮธ(0)โˆ’ฮ”fโ€ฒ(ฮธ(0))=f(ฮธ(0))ฮ”โˆดฮ”=f(ฮธ(0))fโ€ฒ(ฮธ(0))

์ด๊ฒƒ์„ ์ผ๋ฐ˜ํ™”ํ•˜๋ฉด

ฮธ(t+1):=ฮธ(t)โˆ’f(ฮธ(t))fโ€ฒ(ฮธ(t))

์ด๋‹ค.

๊ทธ๋ฆฌ๊ณ  ์ด๊ฒƒ์„ vector form์œผ๋กœ ์ผ๋ฐ˜ํ™”ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

ฮธ(t+1):=ฮธ(t)โˆ’Hโˆ’1โˆ‡ฮธl(ฮธ)

์ด๋•Œ, H๋Š” Hessian์ด๋‹ค. vector function์˜ Derivate๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

๋ถ„๋ช… Newtonโ€™s Method๋Š” ์ ์€ step์œผ๋กœ ์ตœ์ ์˜ ฮธ๋ฅผ ์ฐพ์•„๋‚ธ๋‹ค. ํ•˜์ง€๋งŒ, Newtonโ€™s Method์˜ ๊ณต์‹์„ ์‚ดํŽด๋ณด๋ฉด n-by-n ํ–‰๋ ฌ์˜ ์—ญํ–‰๋ ฌ์ธ Hโˆ’1๋ฅผ ๊ตฌํ•˜๋Š” ๊ณผ์ •์ด ์žˆ๋‹ค! n์ด ์ž‘๋‹ค๋ฉด ์—ญํ–‰๋ ฌ์„ ๊ตฌํ•˜๋Š” ๋น„์šฉ์ด ํฌ์ง€ ์•Š๊ฒ ์ง€๋งŒ, n์ด ์ปค์ง„๋‹ค๋ฉด ์—ญํ–‰๋ ฌ์„ ๊ตฌํ•˜๋Š” ๋น„์šฉ์€ ์•„์ฃผ์•„์ฃผ ์ปค์ง„๋‹คโ€ฆ ๊ทธ๋ž˜์„œ Newtonโ€™s Method๋Š” ฮธ๊ฐ€ ๊ฐ–๋Š” feacture๊ฐ€ ์ ์„ ๋•Œ๋งŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ œ์•ฝ์„ ๊ฐ€์ง„๋‹ค.


๋งบ์Œ๋งPermalink

  • Perceptron Algorithm์€ ๊ฐ€์žฅ ์ดˆ๊ธฐ์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•์ด๋‹ค.
    • ํ•˜์ง€๋งŒ, ํ†ต๊ณ„ํ•™์  ์˜๋ฏธ๋‚˜ MLE์™€์˜ ์ ‘์ ์ด ์—†๋‹ค.
  • Newtonโ€™s Method๋Š” ํ•จ์ˆซ๊ฐ’์„ 0์œผ๋กœ ๊ทผ์‚ฌํ•˜๋Š” ๊ฐ€์žฅ ์›์ดˆ์ ์ธ ์ ‘๊ทผ๋ฒ•์ด๋‹ค.
  • Newtonโ€™s Method๋Š” ๋” ์ ์€ step์œผ๋กœ ์ตœ์ ํ•ด์— ๋„๋‹ฌํ•œ๋‹ค.
    • ํ•˜์ง€๋งŒ, n-by-n ํ–‰๋ ฌ์ธ Hessian H์˜ ์—ญํ–‰๋ ฌ์„ ๊ตฌํ•˜๋Š” ๋น„์šฉ์ด ํฌ๋‹ค๋ฉด ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋‹ค.