Locally Weighted Linear Regression, MLE โก LMS
๋ณธ ๊ธ์ 2018-2ํ๊ธฐ Stanford Univ.์ Andrew Ng ๊ต์๋์ Machine Learning(CS229) ์์ ์ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
โ lecture video
Locally Weighted Linear Regression; LWR
์ง๋ ๊ฐ์์์๋ Linear Regression์ ๋ํ ๋ค๋ค๋ค๋ฉด, ์ด๋ฒ์๋ Weight ํจ์ $w^{(i)}$๊ฐ ํฌํจ๋ Locally Weighted Linear RegressionLWR์ ๋ํด ๋ค๋ฃฌ๋ค.
LWR์ ํจ์๋ฅผ ๊ทผ์ฌํ ๋, neighborhood์ ์ํฅ์ ๋ ๊ณ ๋ คํ์๋ ํจ๋ฌ๋ค์์ด๋ค. ๊ทธ๋์ LWR์ ๋ค์์ ์์ ๋ Cost function์ ์ฌ์ฉํ๋ค.
์ด๋, Weight ํจ์ $w^{(i)}$์ ๋ค์๊ณผ ๊ฐ๋ค.
$w^{(i)}$์ ์๋ฏธ๋ฅผ ํด์ํด๋ณด๋ฉด,
- if $\left| x^{(i) - x }\right|$ is small, $w^{(i)} \approx 1$
- else if $\left| x^{(i) - x }\right|$ is large, $w^{(i)} \approx 0$
๊ทธ๋์ $\theta$๋ query point $x$์ ๊ฐ๊น์ด ์ ๋ค์ ๋ํด ๋ ํฐ weight๋ฅผ ๋ถ์ฌํ๋ค.
$w^{(i)}$๋ Gaussian๊ณผ ๋น์ทํ ํํ๋ฅผ ๊ฐ์ง์ง๋ง, $w^{(i)}$๊ฐ Gaussian function์ธ ๊ฒ์ ์๋๋ค!
$w^{(i)}$๋ neighborhood์ ๋ฒ์๋ฅผ neighborhood parameter $\tau$๋ฅผ ํตํด ์ง์ ํ๋ค.
parametric / non-parametric Learning
$w^{(i)}$๋ ์ ๋ ฅ๊ฐ $x$์ ๋ํ ํจ์์ด๋ค. ๊ทธ๋์ $w^{(i)}(x)$๋ผ๊ณ ํ ์ ์๋ค.
โweights depend on the particular point $x$ at which weโre trying to evaluate $x$.โ
LWR๋ฅผ ํตํด Learning์ ํ ๊ฒฝ์ฐ weight $\theta$๋ ํน์ ์ ๋ ฅ๊ฐ $x$์ ๋ฐ๋ผ ๋ฐ๋๋ค. ๊ทธ๋์ ์ ๋ ฅ๊ฐ์ด ๋ฐ๋ ๋๋ง๋ค $\theta$๋ฅผ ๋งค๋ฒ ๋ค์ ์ต์ ํํด์ผ ํ๋ค.
LWR์ ๋ํ์ ์ธ non-parametric Learning์ด๋ค. ์์์ ์ดํด๋ณธ (unweighted) Linear Regression์ parametric Learning์ ํด๋นํ๋ค. ๊ทธ ์ด์ ๋ Linear Regression์์๋ dataset์ด ๊ณ ์ ๋์ด ์๊ณ Learning์ ํตํด ์ต์ ํํ $\theta$ ๊ฐ์ ์๊ณ ์์ผ๋ฉด, ๊ทธ ์ดํ์ prediction์ Learning ์์ด ํด๋น $\theta$ ๊ฐ๋ง์ ์ฌ์ฉํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ด๋ค.
โOnce weโve fit the $\theta_{i}$โs and stored them away, we no longer need to keep the training data around to make future predictions.โ
ํ์ง๋ง non-parametric Learning์์๋ dataset์ด ๊ณ ์ ๋์ด ์์ง ์๊ณ , ๋งค prediction๋ง๋ค query point $x$์ ๋ฐ๋ผ Learning์ ์๋กญ๊ฒ ํด์ค์ผ ํ๋ค. ๊ณ์ฐ ๋น์ฉ์ ๋งค์ฐ ํฌ์ง๋ง, Linear Regression๋ณด๋ค ๋ ๋ฎ์ prediction error๋ฅผ ๋ณด์ธ๋ค.
Probabilistic Interpretation
์ฐ๋ฆฌ๋ ์ง๊ธ๊น์ง LMSLeast Mean Square ๋ฐฉ์์ผ๋ก Cost๋ฅผ ์ ์ํ์ฌ $\theta$๋ฅผ Learning ํ์๋ค. ์ ํํ LMS์ ์ฌ์ฉํ ๊ฒ์ผ๊น? LMS ๋ฐฉ์์ด ์ ํฉ๋ฆฌ์ ์ธ์ง ๊ทธ ์ด์ ๋ฅผ Probability ๊ด์ ์์ ์ดํด๋ณด์!
Maximum Likelihood Estimation
๋จผ์ target variable $y^{(i)}$์ input variable $x^{(i)}$๊ฐ ๋ค์๊ณผ ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ฐ์ง๋ค๊ณ ๊ฐ์ ํ์.
$\epsilon^{(i)}$์ error term์ผ๋ก modeling ๊ณผ์ ์์ ํฌํจํ์ง ๋ชปํ feature๋ random noise๋ฅผ ํฌํจํ๋ค.
๋, $\epsilon^{(i)}$์ ๋ํด์๋ Gassian distribution์ ๋ฐ๋ฅด๋ IIDIndependently and Identically distributed๋ผ๊ณ ๊ฐ์ ํ๋ค. (โNormal distributionโ์ด๋ผ๊ณ ๋ ํ๋ค.)
โ$\epsilon^{(i)}$๊ฐ IIDโ๋ผ๊ณ ํจ์ house1์ error term์ด house2์ error term์ ์ํฅ์ ์ฃผ์ง ์๋๋ค๋ ๋ง์ด๋ค.
$\epsilon^{(i)}$์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์์์ผ๋ก ๊ธฐ์ ํ๋ฉด,
์ด๋, ์ $y^{(i)} = \theta^{T} x^{(i)} + \epsilon^{(i)}$์ ์ํด์ $\epsilon^{(i)} = y^{(i)} - \theta^{T} x^{(i)}$์ด๋ค. ๋ฐ๋ผ์ $p\left( \epsilon^{(i)} \right)$๋ ๋ค์์ ์๋ฏธํ๋ค.
ํ๋ฅ ํจ์ $p ( y^{(i)} \vert x^{(i)}; \theta )$๋ $\theta$๋ฅผ ์ธ์๋ก ํ๋ Likelihood ํจ์ $L(\theta)$๋ก ํด์ํ ์๋ ์๋ค.
$\theta$๊ฐ ๋ณ์์ธ์ง ๊ณ ์ ๊ฐ์ธ์ง์ ๋ฐ๋ผ $L(\theta)$์ $p(\vec{y} \vert X; \theta)$๋ฅผ ์ฌ์ฉํ๋ค.
$\theta$๊ฐ ๋ณ์๋ผ๋ฉด, Likelihood $L(\theta)$๋ฅผ ์ฌ์ฉํ๋ค. ๋ฐ๋ฉด, $\theta$๊ฐ ๊ณ ์ ๋์ด ์๊ณ , $(y, x)$ ๊ฐ์ training pair๊ฐ ๋ณํ๋ค๋ฉด, $p(\vec{y} \vert X; \theta)$๋ฅผ ํตํด โprobability of dataโ์ ์๋ฏธ๋ก ์ฌ์ฉํ๋ค.
$p(\vec{y} \vert X; \theta)$๋ IID์ ์ํด ๋ค์๊ณผ ๊ฐ์ด ํํ๋๋ค.
The principal of Maximum Likelihood
์์์ ๊ตฌ์ถํ ํ๋ฅ ๋ชจ๋ธ $p(\vec{y} \vert X; \theta)$์์ ์ด๋ค $\theta$ ๊ฐ์ด ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ผ๊น? ๊ทธ๊ฒ์ $p(\vec{y} \vert X; \theta)$์ ๊ฐ์ Maximizeํ๋ $\theta$์ด๋ค!
โThe principle of maximum likelihood says we should choose $\theta$ so as to make the data as high probability as possible. I.e., we should choose $\theta$ to maximuze $L(\theta)$โ
Log Likelihood $l(\theta)$
ํ์ง๋ง $L(\theta)$๋ฅผ ๋ฐ๋ก Maximizeํ๋ ๊ฒ์ ์ฝ์ง ์๋ค. Derivative of $L(\theta)$๋ ์๋นํ ๊ทธ๊ฒ์ ์ ๋ํ๋ ๊ฒ์ด ๋ณต์กํ๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋์ ์ฐ๋ฆฌ๋ $L(\theta)$์ $\log$๋ฅผ ์ทจํ $l(\theta)$๋ฅผ ๋์ ์ฌ์ฉํ ๊ฒ์ด๋ค!
$l(\theta)$๋ฅผ Maximize ํ๊ธฐ ์ํด์ ์์ ์์์ $- \cfrac{1}{\sigma^{2}} \cdot \cfrac{1}{2} \sum_{i} { {\left( y^{(i)} - \theta^{T} x^{(i)} \right)}^2 }$ ๋ถ๋ถ์ Maximize ํด์ผ ํ๋ค.
์ด๋, ์์ ๋ถํธ $-$๋ฅผ ๊ณ ๋ คํ์ฌ ๋ฐ์ ํ๋ฉด,
$\cfrac{1}{\sigma^{2}} \cdot \cfrac{1}{2} \sum_{i} { {\left( y^{(i)} - \theta^{T} x^{(i)} \right)}^2 }$๋ฅผ minimizeํ๋ ๊ฒ์ด๊ณ ์ด๊ฒ์ $J(\theta)$๋ฅผ ์๋ฏธํ๋ค!!
๋์น ๊ด๊ณ๋ฅผ ์ ๋ฆฌํด๋ณด์.
- $\max{L(\theta)} \equiv \max{l(\theta)}$
- $\max{l(\theta)} \equiv \max{\sum_{i}{- \frac{\left( y^{(i)} - \theta^{T} x^{(i)} \right)^2}{2{\sigma}^2}}}$
- $\max{\sum_{i}{- \frac{\left( y^{(i)} - \theta^{T} x^{(i)} \right)^2}{2{\sigma}^2}}} \equiv \min{\frac{1}{2}\sum_{i}{\left( y^{(i)} - \theta^{T} x^{(i)} \right)^2}} = \min{J(\theta)}$
- $\max{L(\theta)} \equiv \min{J(\theta)}$
์ฐธ๊ณ ๋ก Likelihood Maximizing์ Regression problem ์ธ์๋ Classification Problem์์๋ ์ ์ฉ๊ฐ๋ฅ ํ๋ค!!
๋งบ์๋ง
๊ฒฐ๋ก ์ ์ผ๋ก ์ฐ๋ฆฌ๋ LMS ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด์ Likelihood $L(\theta)$๋ฅผ Maximizingํ๊ณ ์์๋ค. ๋ฌผ๋ก $\textrm{LMS} \equiv \textrm{MLE}$์๋ IID๋ผ๋ ๊ฐ์ ์ด ํ์ํ์ง๋ง, ์ด ๋์น ๊ด๊ณ๋ LMS ๋ฐฉ์์ ์ง์งํ๋ ๊ฐ๋ ฅํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
-
$p (y^{(i)} \vert x^{(i)}; \theta )$์ $p ( y^{(i)} \vert x^{(i)}, \theta )$๋ ๋ถ๋ช ๋ค๋ฅธ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค. โ$;$โ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ๊ทธ ์๋ฏธ๋ โparameterized byโ๊ฐ ๋๋ค. ๋ฐ๋ฉด, โ$,$โ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ โ$\theta$์ ๋ํด conditioning ๋จโ์ ์๋ฏธํ๋ค. ์ด๋ $p ( y^{(i)} \vert x^{(i)}, \theta )$๋ ํ๋ฆฐ ํํ์ธ๋ฐ, $\theta$๊ฐ random variable์ด ์๋ parameter์ ์ง์๋ฅผ ๊ฐ๊ธฐ ๋๋ฌธ์ด๋ค.ย ↩