Least-squared Method
์ํ๊ณผ ๋ณต์์ ๊ณต์ ์ํด ์กธ์ ๋ง์ง๋ง ํ๊ธฐ์ โ์์นํด์๊ฐ๋ก โ ์์ ์ ๋ฃ๊ฒ ๋์์ต๋๋ค. ์ํ๊ณผ ์กธ์ ์ํ๋ ๊ฒธ์ฌ๊ฒธ์ฌ ์ค๋นํ ๊ฒธ ํ์ดํ ํด๋ด ์๋ค!! ์ ์ฒด ํฌ์คํธ๋ โNumerical Analysisโ์์ ํ์ธํ ์ ์์ต๋๋ค.
๋ค์ด๊ฐ๋ฉฐ
๋๋์ด ์ด๋ฒ ํ๊ธฐ ์์นํด์๊ฐ๋ก ์์ ์ ๋ง์ง๋ง ์ฑํฐ ์ ๋๋ค! ์กธ์ ํ๊ธฐ๋ผ ๊ณต๋ถ๊ฐ ์์ ์ ์ ์กํ๊ธด ํ๋๋ฐโฆ ๋๊ฐ์ง ํ์ดํ !!
Introduction
โLeast-square Methodโ(์ดํ LS Method)๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ ํฌ์ธํธ์ ๊ฐ์ฅ ์ ๋ง๋ ์ง์ (๋๋ ๊ณก์ )์ ์ฐพ๋ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค.
๋ฐ์ดํฐ ๋ ธ๋์ ์งํฉ $\left\{ (x_1, y_1), \cdots, (x_n, y_n) \right\}$์ด ์ฃผ์ด์ก์ต๋๋ค. ์ด๊ฒ์ ์ ํ์ผ๋ก ๊ทผ์ฌํ๋ ๋ชจ๋ธ $y = ax + b$๋ฅผ ์ฐพ๊ณ ์ ํฉ๋๋ค. ๊ทธ๋ฌ๋ฉด, ์ฐ๋ฆฌ๊ฐ ์ฐพ์์ผ ํ ๊ฒ์ ๊ณ์ $a$์ $b$์ด๊ณ , ์ด ๋ ๊ณ์๋ ์๋์ โ์ค์ฐจ์ ๊ณฑํฉ(Sum of Squared Errors, SSE)โ๋ฅผ ์ต์๋ก ํ๋ ์ค์๊ฐ์ฌ์ผ ํฉ๋๋ค.
\[SSE(a, b) = \sum_{i=1}^n \left(y_i - (a x_i + b)\right)^2\]Matrix Form
์ด๊ฒ์ ์ข๋ ์ฝ๊ฒ ํ๊ธฐ ํ๊ธฐ ์ํด ํ๋ ฌ๋ก ํํ ํฉ๋๋ค.
\[X \theta \approx \mathbf{y}\]์๋ฅผ ๋ค์ด ์๋์ ๊ฐ์ด ๋ฐ์ดํฐ ๋ ธ๋๊ฐ ์ฃผ์ด์ก๊ณ ,
\[\left\{ (x, y) : (1, 2), (2, 3), (3, 4) \right\}\]์ด๊ฒ์ $y = ax + b$๋ก ํํํ๋ฉด,
\[y_i = a x_i + b\]๊ฐ ๋๋๋ฐ, ์ด๊ฑธ ๋ฒกํฐ ๋ด์ ์ผ๋ก ํํํ๋ฉด,
\[\begin{aligned} y_i &= \begin{bmatrix} b & a \end{bmatrix} \begin{bmatrix} 1 \\ x_i \end{bmatrix} \\ &= \begin{bmatrix} a & b \end{bmatrix} \begin{bmatrix} x_i \\ 1 \end{bmatrix} \\ &= {\color{red} \begin{bmatrix} x_i & 1 \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} } \end{aligned}\]์ด๋ ๊ฒ ํํํ ์ ์์ต๋๋ค. 3๊ฐ์ง ํํ์ ๊ฐ์ ธ์๋๋ฐ, ์ด๋ค ๊ฑธ๋ก ์ ์ด๋ ์๊ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ๋ ๋ง์ง๋ง ํํ์ ์ฌ์ฉํด ๋ฐ์ดํฐ ๋ ธ๋๋ฅผ ํ๋ ฌ๋ก ํํํ๊ฒ ์ต๋๋ค.
\[\begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} = \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix}\]์ต์ข ์ ์ผ๋ก $X \theta = \mathbf{y}$์ ํํ๋ฅผ ์ป์์ต๋๋ค! ๋งฅ๋ฝ์ ๋ฐ๋ผ์, $A \mathbf{x} = \mathbf{b}$๋ผ๊ณ ํํํ๊ฑฐ๋, $A \mathbf{x} = \mathbf{y}$๋ผ๊ณ ํํํ๋ ๊ฒ๋ ์๋๋ฐ, ์ ๋ ๊ณต๋ถํ ๋ ํ๊ธฐ๊ฐ ๋๋ฌด ํท๊ฐ๋ ธ์ด์ $X \theta = \mathbf{y}$๋ก ํํํฉ๋๋ค!
Get Least-squared Solution
์ด ์ ํ ์์คํ ์ ํด๋ฅผ ์ป๊ธฐ ์ํด ๊ฐ ํ๋ ฌ์ ์ ๊ทํ(normalize) ํ๋ ๊ณผ์ ์ด ํ์ ํฉ๋๋ค. ๋ณ๊ฑด ์๋๊ณ , ํ๋ ฌ์ ํ๊ธฐ ์ํด $n \times n$ ์ ์ฌ๊ฐ ํํ๋ก ๋ฐ๊ฟ์ฃผ๋ ์์ ์ ๋๋ค.
\[X^T X \, \theta = X^T \mathbf{y}\]์ด๋ ๊ฒ ์๋ณ์ $X^T$๋ฅผ ๊ณฑํด์ฃผ๋ฉด, ํ๋ ฌ์ด ์ ์ฌ๊ฐ ํ๋ ฌ๋ก ๋ฐ๋๋๋ค.
์๊น์ ์์์ ์ ์ฉํ๋ฉด,
\[X^T X = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} = \begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix}\] \[X^T \mathbf{y} = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} = \begin{bmatrix} 20 \\ 9 \end{bmatrix}\]์ด์ ์๋กญ๊ฒ ๊ตฌํ ์ ๊ท ๋ฐฉ์ ์์ ํ์ด์ค๋๋ค.
\[\begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} = \begin{bmatrix} 20 \\ 9 \end{bmatrix}\]๊ฐ๋จํ $2 \times 2$ ์์คํ ์ด๋ ๊ณ์ฐ์ ์๋ต ํ๊ฒ ์ต๋๋ค. ๊ทธ๋ผ ์ต์ข ํด๋ก $a = 1$, $b = 1$์ ์ป์ ์ ์์ต๋๋ค.
๋ฐ๋ผ์, LS ๋ฐฉ๋ฒ์ผ๋ก ์ป๋ ์๋ฃจ์ ์ง์ ์
\[y = 1 \cdot x + 1\]์ด ๋ฉ๋๋ค.
Residual Vector
โ์์ฐจ ๋ฒกํฐโ๋ ์ค์ ๊ด์ธก๊ฐ๊ณผ ๊ทผ์ฌ๊ฐ์ ์ฐจ์ด๋ฅผ ๋งํฉ๋๋ค.
\[\mathbf{r} = \mathbf{y} - X \mathbf{\theta}_{\text{ls}}\]์ดํด๋ณธ ์์ ์ ๋ํด์ ์์ฐจ๋ฅผ ๊ตฌํด๋ด ์๋ค.
\[\begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} - \begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \end{bmatrix} = \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} - \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} = \mathbf{0}\]์์ ์์ ์ดํด๋ณธ ๊ฒฝ์ฐ๋ ์์ฐจ๊ฐ ์๋ฒกํฐ ์ ๋๋ค! ์ด๊ฒ์ ์ฃผ์ด์ง 3๊ฐ์ ๋ฐ์ดํฐ ๋ ธ๋๊ฐ ์ง์ $y = x + 1$์ ์์ ํ ์ผ์น ํ๋ค๋ ๊ฒ์ ๋งํฉ๋๋ค! ์ด๋ ๊ฒ ์์ฐจ๊ฐ ์์ ์๋ ์์ง๋ง, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ๋ ์์ฐจ๊ฐ ์กด์ฌํฉ๋๋ค ใ ใ ใ
๋งบ์๋ง
์ด์ด์ง๋ ํฌ์คํธ์์๋ โContinuous Least-square Methodโ๋ผ๋ ๊ธฐ๋ฒ์ ์ดํด๋ด ๋๋ค! ์ด ๊ธฐ๋ฒ์์๋ ๋ฐ์ดํฐ ๋ ธ๋๊ฐ ์๋๋ผ ๊ตฌ๊ฐ $(a, b)$๋ง ์ฃผ์ด์ง๋๋ค!