Interpretation of Decision Boundary with Learning
๋ณธ ๊ธ์ 2018-2ํ๊ธฐ Stanford Univ.์ Andrew Ng ๊ต์๋์ Machine Learning(CS229) ์์ ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
โ lecture 4
Decision Boundary
Linear Classification์ Feacture Space ์์ ๋ Class๋ฅผ ๋๋๋ Decision Boundary๋ฅผ ๋ง๋ ๋ค. ์ด๋ฒ์๋ ์ด Decision Boundary์ ๋ํ ์ด์ผ๊ธฐ๋ฅผ ํ์ด๋๊ฐ๊ณ ์ ํ๋ค.
Feacture Space & Decision Boundary(=Hyperplain)
๋จผ์ Feacture Space์ ๋ํด ์ ์ํด๋ณด์. ์ด๊ฒ์ $x$๊ฐ ์กด์ฌํ๋ ๊ณต๊ฐ์ด๋ค. ๋ง์ฝ $x \in \mathbb{R}^{n}$์ด๋ผ๋ฉด, Feacture Space๋ $\mathbb{R}^{n}$์ ๊ณต๊ฐ์ด ๋๋ฉด, $x$๋ Feacture Space ์์ ํ ์ ์ด ๋๋ค.
์๋์ ๊ฐ์ ๊ทธ๋ฆผ์ ์์ํ๋ฉด ๋๋ค. 1
์ด๋, Decision Boundary๋ Feacture Space ์์ ๋ Class๋ฅผ ๋๋๋ Hyperplain์ด๋ค. 2
๊ณต๊ฐ ์์์ ํ๋ฉด์ ์ด๋ป๊ฒ ์ ์ํ๋์ง ๊ณฑ์น์ด ๋ณด์.
2๊ฐ์ง ์์๊ฐ ํ์ํ๋ฐ,
- ํ๋ฉด์ด ์ง๋๋ ํ ์ $P_0$
- ๊ทธ ์ ์ ์ง๋๋ Normal vector $\vec{w}$
๊ฐ ํ์ํ๋ค.
ํ๋ฉด์ ๋ํ ์์ $\vec{w} \cdot x + b = 0$์ผ๋ก ํํ๋๋ค.
๊ทธ๋์ ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ ํ๋ Hyperplain Boundary $\vec{w} \cdot x + b = 0$๋ฅผ ์ป๊ธฐ ์ํด์ , ๋ Class๋ฅผ ์ ๋๋๋ ์ ์ ํ $\vec{w}$์ $b$๋ฅผ ์ฐพ์์ผ ํ๋ค.
Linear Classification
Linear Classification์ $\theta^{T}x$๋ฅผ ํตํด์ ์ ๋ ฅ $x$์ parameter $\theta$๋ฅผ ์ฐ๊ด์ง๋๋ค. ์ด๋ $\vec{w} \cdot x + b$๋ $\theta^{T}x$์ ๋ค๋ฅธ ํํ๋ก ๊ธฐ์ ํ ๊ฒ์ด๋ค.
์์ ํํธ์์ ์ฐ๋ฆฌ๋ Logistic Regression์ ์ดํด๋ณด์๊ณ , hypothesis๋ก $h_{\theta}(x) = \frac{1}{1 + e^{-\theta^{T}x}}$๋ฅผ ์ฌ์ฉํ์๋ค. sigmoid function ์์ฒด๋ non-linear ํจ์์ด๋ค. ํ์ง๋ง, $\theta$์ $x$๊ฐ $\theta^{T}x$๋ผ๋ Linearํ ๋ฐฉ์์ผ๋ก ์ฐ๊ฒฐ๋์ด ์๊ธฐ ๋๋ฌธ์ Logistic Regression๋ ๊ฒฐ๊ตญ์ Linear Classification์ ์ํ๋ค.
์ฐธ๊ณ ๋ก non-Linear Classifier๋ $\theta^{T}x$ ๋์ $x^2_j$๋ ${x_i}{x_j}$๋ฅผ ์ฌ์ฉํด Classification์ ์งํํ๋ค.
Interpretation of Decision Boundary with Learning
์์ ๋ฌธ๋จ์์ Linear Classification์ Feacture Space๋ฅผ ๋ถํ ํ๋ Hyperplain์ ์ฐพ๋ ๊ฒ์์ ์ดํด๋ณด์๋ค. ์ด๋ฒ์๋ Hyperplain๊ณผ Learning์ ๊ด๊ณ์ ๋ํด ์ดํด๋ณด๊ณ ์ ํ๋ค.
๋จผ์ $\theta$๋ Hyperplain์ Normal vector์ด๋ค. ๊ทธ๋ฆฌ๊ณ Hyerplain์ ๊ธฐ์ค์ผ๋ก $\theta^{T}x > 0$์ด๋ฉด ์ ์ฑ ์ข ์, $\theta^{T}x < 0$์ด๋ฉด ์์ฑ ์ข ์์ผ๋ก ํด์ํ๋ค๊ณ ํด๋ณด์.
๊ทธ๋ฌ๋ฉด, Hyperplain์ ๋ค์๊ณผ ๊ฐ๋ค.
ํ์ง๋ง, ์ด ๋ชจ๋ธ์ ํ๋์ ์(โ)์ ๋์น๊ณ ์๋ค. ์ด ํน์ ํ ์ ๋ ฅ $x_j$์ ๋ํด $\theta$์์ ๋ด์ ๊ฐ์ ํ์ธํด๋ณด๋ฉด,
$\theta^{T}{x_j} < 0$์ด๋ผ๋ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค. ํ์ง๋ง ์ด๊ฒ์ ๋ณธ๋ $x_j$๊ฐ ๊ฐ์ก์ด์ผ ํ $y_j=1$์ด๋ผ๋ ๊ฒฐ๊ณผ์๋ ํฌ๊ฒ ๋ค๋ฅด๋ค! ๊ทธ๋์ Learning rule์ ์ด์ฉํด $\theta$์ ๊ฐ์ ๊ฐฑ์ ํด์ค์ผ ํ๋ค.
$\theta$๋ฅผ $\thetaโ$์ผ๋ก ๊ฐฑ์ ํ ๊ฒฐ๊ณผ, ์๋ก์ด Hyperplain์ด ์ ์๋์๋ค. ์ด Hyperplain์ ๋ชจ๋ ์(โ)๋ฅผ $(\thetaโ)^T x > 0$๋ก ๋ถ๋ฅํ๊ณ ์๋ค.
๋งบ์๋ง
- Linear Classification์ Feacture Space๋ฅผ Hyperplain์ผ๋ก ๋๋๋ค.
- ์ฐ๋ฆฌ๊ฐ ๋ณธ Logistic Regression๋ ๊ฒฐ๊ตญ์ Linear Classification์ ์ํ๋ค.
- Linear / non-Linear Classification ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ์ parameter $\theta$์ ์ ๋ ฅ $x$๊ฐ ์ด๋ป๊ฒ ์ฎ์ฌ ์์ผ๋ ์ด๋ค.
- Linear Classification์์ parameter $\theta$๋ Hyperplain์ normal vector์ด๋ค.
- Learning์ ํตํด $\theta$๋ฅผ ๊ฐฑ์ ํ๋ฉด Hyperplain์ ๊ธฐ์ธ๊ธฐ๊ฐ ๋ณํํ๋ค.
-
์ถ์ฒ: Frames of reference and their neural correlates within navigation in a 3D environment(M. Vavrecka, et al., 2012)ย ↩
-
๋จ, โ๋ชจ๋ Decision Boundary๊ฐ Hyperplain์ด๋ค.โ๋ ๋ง์ ๊ฑฐ์ง์ด๋ค. ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃจ๋ Binary Classification์ ๊ฒฝ์ฐ๋ Boundary๊ฐ Hyperplain์ ํํ๋ก ํํ๋๋ค.ย ↩