Classification, Logistic Regression
๋ณธ ๊ธ์ 2018-2ํ๊ธฐ Stanford Univ.์ Andrew Ng ๊ต์๋์ Machine Learning(CS229) ์์ ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
โ lecture video
Classification
์ด๋ฒ ํํธ์์๋ Classification Problem์ ๋ํด ๋ค๋ฃฌ๋ค. ์์๋ ์ ์ Classification ์ญ์ Regression์ ํ ์ข ๋ฅ๋ผ๋ ๊ฒ์ด๋ค. ๋จ์ง Predicted Value๊ฐ ์ฐ์์ด ์๋๋ผ ์ด์ฐ์ ์ผ ๋ฟ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฒ ํํธ์์๋ Classification Problem ์ค์์๋ $\{ 0, 1 \}$์ Binary Classification Problem์ ๋ค๋ฃฌ๋ค! 1
Failure of Linear Regression
์์ ๊ฐ์์์๋ Linear Regression์ hypothesis $h_{\theta}(x) = w^{T} \cdot x + b$๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , prediction ํ์๋ค. ํ์ง๋ง, Classification์์๋ 2๊ฐ์ง ๋ฌธ์ ์ ๋๋ฌธ์ ๊ทธ๋ด ์ ์๋ค.
P1. Linear Regression์ ๊ฒฝ์ฐ ์ ๋ ฅ์ผ๋ก๋ถํฐ ์ค๋ Loss์ ์ดํฉ์ ์ต์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ๋ฐ๋ผ์ Classification ์ํฉ์์ ๋ค์๊ณผ ๊ฐ์ Boundary๋ฅผ ๋ง๋ค์ด ๋ธ๋ค.
P2. Classification์ $\{ 0, 1 \}$์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์ํ๋ค. ํ์ง๋ง, Linear Regression์์๋ 0๋ณด๋ค ์๊ฑฐ๋ 1๋ณด๋ค ํฐ ๊ฐ์ ์ถ๋ ฅํด๋ฒ๋ฆฐ๋ค.
๊ธฐ์กด ๋ชจ๋ธ์ธ Linear Regression์ Classification์์ ์ ํฉํ์ง ์๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค. ์ฐ๋ฆฌ๋ Classification์ ์ํ ์๋ก์ด ๋ชจ๋ธ์ด ํ์ํ๋ค!
Logistic Regression (a.k.a. sigmoid function)
์์์๋ ์ธ๊ธ ๋์๋ฏ์ด ์ฐ๋ฆฌ๋ $\{ 0, 1 \}$์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์ํ๋ค. ๊ทธ๋์ hypothesis $h_{\theta}(x)$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ค๊ณํ ๊ฒ์ด๋ค.
์ฐ๋ฆฌ๋ ํจ์ $g(z)= \frac{1}{ 1+e^{-z} }$์ ๊ฐ์ ๊ผด์ Logistic function ๋๋ sigmoid function์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์๋กญ๊ฒ ๋ชจ๋ธ๋งํ ํจ์ $h_{\theta}(x)$๋ ์ถ๋ ฅ ๊ฐ์ด $[0, 1]$ ์ฌ์ด๋ก ๊ฐ์ ๋๋ค!
Why we choose โsigmoidโ function?
์ฐ๋ฆฌ๋ ์ ํํ sigmoid ํจ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ผ๊น? ์ถ๋ ฅ ๊ฐ์ $[0, 1]$ ์ฌ์ด๋ก ๊ฐ์ ํ๋ค๋ฉด, sigmoid ๋ง๊ณ ๋ ๋ค๋ฅธ smooth function์ ์ฌ์ฉํ ์๋ ์๋๋ฐ ๋ง์ด๋ค.
๊ทธ ์ด์ ๋ lecture 4์ GLMGeneralized Linear Model์์ ๋ค๋ฃจ๊ฒ ๋๋ค!
Logistic Regression & Probabilistic Approach
$\textrm{MLE} \equiv \textrm{LMS}$๋ฅผ ๋ณด์ด๊ธฐ ์ํด ๋ช๊ฐ์ง ๊ฐ์ ์ ํ๋ฏ์ด, Logistic Regression์์๋ ๋ช๊ฐ์ง ๊ฐ์ ์ ๋์ ํ ๊ฒ์ด๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ ํ๋์ equation์ผ๋ก ๋ค์ ์จ๋ณด๋ฉด
์ด์ MLE ๊ณผ์ ์ ์ ์์ ๋ฐํ์ผ๋ก ๋ค์ ํด๋ณด์!
๊ทธ๋ฆฌ๊ณ ์ค์์ $\log$๋ฅผ ์ทจํ๋ฉด
์ฌ์ ํ ์ฐ๋ฆฌ์ ๋ชฉํ๋ Likelihood๋ฅผ Maximizeํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ํด ๋ค์๊ณผ ๊ฐ์ GD ๋ฐฉ์์ ์ฌ์ฉํ ๊ฒ์ด๋ค.
์์ ๋ณด๋ฉด, ๊ธฐ์กด์ GD๊ณผ๋ ๋ฌ๋ฆฌ Gradient ํ ์ด ๋ฐ๋์๋ค. log likelihood์ Gradient๋ฅผ ๋ํ๋($+$)๋ ํํ๋ก ๋ฐ๋์๋ค.
๊ทธ ์ด์ ๋ Likelihood์ ๊ฒฝ์ฐ Maximize ํ๋ Gradient Ascent ๊ณผ์ ์ด๊ธฐ ๋๋ฌธ์ด๋ค!
์ด์ Gradient ํ ์ ๊ตฌํ๋ฉด
์ ๋ฆฌํ๋ฉด ๊ฒฐ๊ตญ
Gradient Ascent์ ์ต์ข ์ ์ธ ํํ๋ฅผ ๋ณด๋ฉด, LMS์์์ GD์ ์๋นํ ๋ฎ์์๋ค!
ํ์ง๋ง, ์ด ๋์ ๋ช ๋ฐฑํ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ด๋ค! ์๋ํ๋ฉด, hypothesis $h_{\theta}(x^{(i)})$๊ฐ non-linear function์ธ sigmoid์ด๊ธฐ ๋๋ฌธ์ด๋ค!
LMS๊ณผ Classification์ Learning Algorithm์ด ์ ์ฌํ ํํ๋ฅผ ๋๋ ๊ฒ์ ์๋นํ ํฅ๋ฏธ๋กญ๋ค. ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฌ์ฑ์ ๋จ์ํ ์ฐ์ฐ์์ ๊ธฐ์ธํ๋ ๊ฒ์ผ๊น? ์ด ์ง๋ฌธ์ ๋ํ ํด๋ต์ด ๋ค์ lecture์ ์๋ค!
๋งบ์๋ง
์ด๋์ ๋ Binary Classification์์์ Learning Algorithm์ ์ดํด๋ดค๋ค. ์ด๋ฒ ๋ฌธ๋จ์์ ๊ทธ ์๋ฏธ๋ง์ ๊ฐ๋จํ๊ฒ ์์ฝํด๋ณด์.
- Classification์์๋ $\{ 0, 1 \}$์ ๋ง์ถ๊ธฐ ์ํด sigmoid๋ฅผ $h_{\theta}(x)$๋ก ์ฌ์ฉํ ์๋ก์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค.
- ๊ทธ ๋ชจ๋ธ์์๋ Loss ๋์ Likelihood๋ฅผ Maximize ํ๋ค.
- ์ด๋ฅผ ์ํด Gradient Ascent ๋ฐฉ์์ผ๋ก $\theta$๋ฅผ ์ต์ ํ ํ๋ค.
- ๋๋๊ฒ๋ LMS์์์ GD์ ๊ทธ ํํ๊ฐ ์ ์ฌํ๋ค!!
-
Binary Classification์ Multi-class๋ฅผ ์ผ๋ฐํํ๊ฒ ๋๋ฉด, Generalized Linear Regression์ ํํ๊ฐ ๋๋ค! (Lecture 4์์ ๋ค๋ฃจ๊ฒ ๋จ.)ย ↩