Linear Classification - 2
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
Binary Logistic Regression
LDA์ QDA์์๋ $f_k(x)$, ์ฆ โthe conditional density of $X$ given $Y=k$โ๋ฅผ ๋ชจ๋ธ๋งํ์๋ค. ํ์ง๋ง, <Logistic Regression> ๋ชจ๋ธ์ Regression output $x^T \beta$๋ฅผ <Logistic Function> $\dfrac{e^x}{1 + e^x}$์ ์ ์ฉํ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ฉํ๋ค!! ํ๋ฒ ์ดํด๋ณด์. ๐คฉ
Definition
Assume that $\mathcal{Y} = \{0, 1\}$. Then the <logistic regression model> assumes
\[P(Y=1 \mid X=x) = \frac{\exp (x^T \beta)}{1 + \exp (x^T \beta)}\]Q1. ์ Logistic โRegressionโ ์ธ๊ฐ?
ํ๋ฒํ Linear Regression Model์์ $P(Y = 1 \mid X = x)$๋
\[P(Y = 1 \mid X=x) = x^T \beta\]์ ๊ฒฐ๊ณผ๋ฅผ ๋ฑ๋๋ค. ํ์ง๋ง, ์ด๋ ๊ฒ ๋ชจ๋ธ๋งํ ๊ฒฝ์ฐ, $x^T \beta$์ ๊ฐ์ด ํ๋ฅ ์ ์ ์์ธ $[0, 1]$ ๊ฐ์ ๊ฐ๋๋ค๋ ์กฐ๊ฑด์ ์ ๋ง์กฑํ์ง ๋ชป ํ๋ค. โThe linear regression model vilostes that $x^T \beta \in [0, 1]$โ
๊ทธ๋์ ์ด $[0, 1]$ ์ฌ์ด์ ๋ค์ด์จ๋ค๋ ์กฐ๊ฑด์ ๋ง์กฑํ๊ธฐ ์ํด $x^T \beta$์ ๊ฐ์ Transformation์ ์ ์ฉํ๋ค. ๊ทธ ์ค ํ๋๊ฐ ์ด๋ฒ์ ์ฌ์ฉํ๋ <logistic function>, ๋ค๋ฅธ ์ด๋ฆ์ผ๋ก <sigmoid function>์ธ ๊ฒ์ด๋ค.
\[\text{sigmoid}(x) = \frac{e^x}{1+e^x}\]์ฌ์ค <sigmoid function> ์ธ์๋ <Gaussian cdf>๋ <Gompertz function>์ ์จ๋ ๋๋ค๊ณ ํ๋ฉฐ, ์ด ๊ฒฝ์ฐ ์ข๋ ํน๋ณํ ์ํฉ, ์๋ฅผ ๋ค๋ฉด โ๋ณดํโ ๋ฑ์ ๋ถ์ผ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ํ๋ค.
Q2. ์ โLogisticโ Regression์ธ๊ฐ?
Linear Regression๊ณผ LDA/QDA ๋ชจ๋ classification์ ์ํํ๊ธฐ ์ํด ์ ์ ํ decision boundary๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
\[\left\{ x : \log \frac{P(Y=1\mid X=x)}{P(Y=0 \mid X = x)} \right\}\]์ด๋, ํน๋ณํ๊ฒ๋ decision boundary๊ฐ โlinearโํ ์ํฉ์ด๋ผ๋ฉด, ์๋์ ์์ ๋ง์กฑํ๋ฉฐ classification์ ์ํ hyper-plain์ด ์ ์๋๋ค.
\[\log \frac{P(Y=1 \mid X=x)}{P(Y=0 \mid X = x)} = x^T \beta\]๊ทธ๋ฆฌ๊ณ ์์ ์์์ ๋ก๊ทธ๋ฅผ ํ๊ณ , ํ๋ฅ ์ ์ฑ์ง์ ์ ์ด์ฉํ๋ฉด ์๋์ ์์ด ์ ๋๋๋ค.
\[P(Y=1 \mid X= x) = \frac{\exp (x^T \beta)}{1 + \exp (x^T \beta)}\]๋๋๊ฒ๋ ์ด๋ ์ ๋๋ ์์ด ๋ฐ๋ก <Logistic Function>์ธ ๊ฒ์ด๋ค!! ๐คฉ
MLE; Maximum Likelihood Estimation
<Logistic Regression> ๋ชจ๋ธ๋ ๊ฒฐ๊ตญ์ Regression์ ์ํด $\beta$ ๊ฐ์ ์ถ์ ํด์ผ ํ๋ค. ์ด๊ฒ์ <MLE; Maximum Likelihood Estimation>์ ํตํด ์ถ์ ํ๋ค. ๊ทธ ๊ณผ์ ์ ์ดํด๋ณด์.
๋จผ์ <Likelihood function> $L(\beta)$๋ฅผ ์ ์ํ์.
\[L(\beta) = \prod^n_{i=1} P(Y = y_i \mid X = x_i)\]$L(\beta)$๊ฐ ์ ์ด๋ ๊ฒ ์ ์๋์๋์ง ์ดํด๋ณด์.
(์ถ์ฒ: ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ)
์ฐ์ , $L(\beta)$์์ $X=x_i$์์์ ํ๋ฅ ์ ๋ชจ๋ ๊ณฑํ๊ณ ์๋ค. ์ด๋ ๊ฒ ๊ณฑํ ์ ์๋ ์ด์ ๋ MLE์ ๊ฐ์ ์ธ โ๊ฐ $x_i$๊ฐ ๋ชจ๋ i.i.d.ํ๋คโ์ ๊ธฐ๋ฐํ๋ค. ๋ ๋ฆฝ์ธ ์ฌ๊ฑด๋ค์ด ๋์์ ๋ฐ์ํ๋ ๊ฒ์ด๋ฏ๋ก โํ๋ฅ ์ ๊ณฑ๋ฒ์นโ์ ์ํด ์์ ๊ฐ์ด $\prod$ ๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค.
์์ $L(\beta)$์ ์์ <logistic function>์ ๋ฃ์ด์ ์กฐ๊ธ ํ์ด์ ์จ๋ณด์.
\[\begin{aligned} L(\beta) &= \prod^n_{i=1} \left( \frac{\exp (x_i^T \beta)}{1 + \exp (x_i^T \beta)}\right)^{y_i} \left( \frac{1}{1 + \exp (x_i^T \beta)}\right)^{1-y_i} \\ &= \prod^n_{i=1} \left( \frac{\exp (y_i \cdot x_i^T \beta)}{1 + \exp( x_i^T \beta)}\right) \end{aligned}\]๋ฑ ๋ด๋ ์์ด ์ข ๋ณต์กํ๋ค. ๊ทธ๋์ ๊ณ์ฐ์ ํธ์๋ฅผ ์ํด $L(\beta)$์ $\log$๋ฅผ ์ทจํด <Log-Likelihood> $\ell(\beta)$๋ฅผ ์ฌ์ฉํ์!
\[\begin{aligned} \ell (\beta) &= \log \left( \prod^n_{i=1} \left( \frac{\exp (y_i \cdot x_i^T \beta)}{1 + \exp( x_i^T \beta)}\right) \right) \\ &= \sum^n_{i=1} \; \log \left( \frac{\exp (y_i \cdot x_i^T \beta)}{1 + \exp( x_i^T \beta)}\right) \\ &= \sum^n_{i=1} \; \left( y_i \cdot x_i^T \beta - \log \left( 1 + \exp(x_i^T \beta)\right) \right) \end{aligned}\]Production์ผ๋ก ๊ตฌ์ฑ๋ ๊ธฐ์กด์ ์์ Summation์ผ๋ก ๋ณํํ๊ธฐ์ ์ด์ ๋ณด๋ค๋ ๋ถ์ํ๊ธฐ ํจ์ฌ ์ฌ์์ก์ง๋ง, ์ฌ์ ํ $\ell (\beta)$๋ฅผ Maximizationํ๋ ๊ฒ์ ๊ฐ๋จํ์ง ์๋ค.
๊ทธ๋ฌ๋ $\ell (\beta)$๊ฐ <concave function>์ด๋ผ๋ ์ 1์ ์ฐ๋ฆฌ๊ฐ nemerical method๋ฅผ ์ฌ์ฉํด Maximization์ ์ํํ ์ ์์2์ ๋งํ๋ค!! ๐คฉ ๊ทธ๋์ <Newton-Raphson method> ๋ฑ์ Nemerical Approximation์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด MLE๋ฅผ ์ํํ ๋๋ค.
Regularization.
(์์ง ์ ์๋ฟ์ง ์๋ค;; ๊ฐ์ ํ๋ฒ ๋ ๋ฃ๊ณ , ์ด ๋ถ๋ถ ๊ต์ฌ ์ฝ๊ณ ์ฑ์ธ ๊ฒ)
LDA vs. Logistic Regression
LDA | Logistic Regression |
---|---|
linear decision boundary | |
Normal ๋ถํฌ ๊ฐ์ ๆ | Normal ๋ถํฌ ๊ฐ์ ็ก |
joint distribution์ธ $P(Y, X)$์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ด ํ์ | $P(Y=1 \mid X = x)$์ ๋ํ ๊ฐ๋ง ์์ผ๋ฉด ์ถฉ๋ถ |
Logistic์ ๋นํด ๋ ๋ง์ '๊ฐ์ '์ด ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ Logistic๊ณผ ๋น๊ตํด applicability๊ฐ ๋จ์ด์ง. | LDA์ ๋น๊ตํด categorical input์ ์ฐ๊ธฐ ์ฌ์ |
Multi-class Logistic Regression
Let $\mathcal{Y} = \{ 1, \dots, K \}$, and assume that
\[P(Y = k \mid X = x) \propto \exp (x^T \beta_k)\]์ด๊ฒ์ ๊ณง,
\[P(Y = k \mid X = x) = \frac{\exp(x^T \beta_k)}{\displaystyle \sum^K_{i=1} \exp (x^T \beta_i)}\]