5 minute read

์ˆ˜ํ•™๊ณผ ๋ณต์ˆ˜์ „๊ณต์„ ์œ„ํ•ด ์กธ์—… ๋งˆ์ง€๋ง‰ ํ•™๊ธฐ์— โ€œ์ˆ˜์น˜ํ•ด์„๊ฐœ๋ก โ€ ์ˆ˜์—…์„ ๋“ฃ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜ํ•™๊ณผ ์กธ์—…์‹œํ—˜๋„ ๊ฒธ์‚ฌ๊ฒธ์‚ฌ ์ค€๋น„ํ•  ๊ฒธ ํ™”์ดํŒ… ํ•ด๋ด…์‹œ๋‹ค!! ์ „์ฒด ํฌ์ŠคํŠธ๋Š” โ€œNumerical Analysisโ€œ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋“ค์–ด๊ฐ€๋ฉฐ

๋“œ๋””์–ด ์ด๋ฒˆ ํ•™๊ธฐ ์ˆ˜์น˜ํ•ด์„๊ฐœ๋ก  ์ˆ˜์—…์˜ ๋งˆ์ง€๋ง‰ ์ฑ•ํ„ฐ ์ž…๋‹ˆ๋‹ค! ์กธ์—… ํ•™๊ธฐ๋ผ ๊ณต๋ถ€๊ฐ€ ์†์— ์ž˜ ์•ˆ ์žกํžˆ๊ธด ํ•˜๋Š”๋ฐโ€ฆ ๋๊ฐ€์ง€ ํ™”์ดํŒ…!!

Introduction

โ€œLeast-square Methodโ€œ(์ดํ•˜ LS Method)๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์— ๊ฐ€์žฅ ์ž˜ ๋งž๋Š” ์ง์„ (๋˜๋Š” ๊ณก์„ )์„ ์ฐพ๋Š” ๋ฐฉ๋ฒ•๋ก  ์ž…๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋…ธ๋“œ์˜ ์ง‘ํ•ฉ $\left\{ (x_1, y_1), \cdots, (x_n, y_n) \right\}$์ด ์ฃผ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์„ ์„ ํ˜•์œผ๋กœ ๊ทผ์‚ฌํ•˜๋Š” ๋ชจ๋ธ $y = ax + b$๋ฅผ ์ฐพ๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด, ์šฐ๋ฆฌ๊ฐ€ ์ฐพ์•„์•ผ ํ•  ๊ฒƒ์€ ๊ณ„์ˆ˜ $a$์™€ $b$์ด๊ณ , ์ด ๋‘ ๊ณ„์ˆ˜๋Š” ์•„๋ž˜์˜ โ€œ์˜ค์ฐจ์ œ๊ณฑํ•ฉ(Sum of Squared Errors, SSE)โ€๋ฅผ ์ตœ์†Œ๋กœ ํ•˜๋Š” ์‹ค์ˆ˜๊ฐ’์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค.

\[SSE(a, b) = \sum_{i=1}^n \left(y_i - (a x_i + b)\right)^2\]

Matrix Form

์ด๊ฒƒ์„ ์ข€๋” ์‰ฝ๊ฒŒ ํ‘œ๊ธฐ ํ•˜๊ธฐ ์œ„ํ•ด ํ–‰๋ ฌ๋กœ ํ‘œํ˜„ ํ•ฉ๋‹ˆ๋‹ค.

\[X \theta \approx \mathbf{y}\]

์˜ˆ๋ฅผ ๋“ค์–ด ์•„๋ž˜์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ ๋…ธ๋“œ๊ฐ€ ์ฃผ์–ด์กŒ๊ณ ,

\[\left\{ (x, y) : (1, 2), (2, 3), (3, 4) \right\}\]

์ด๊ฒƒ์„ $y = ax + b$๋กœ ํ‘œํ˜„ํ•˜๋ฉด,

\[y_i = a x_i + b\]

๊ฐ€ ๋˜๋Š”๋ฐ, ์ด๊ฑธ ๋ฒกํ„ฐ ๋‚ด์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด,

\[\begin{aligned} y_i &= \begin{bmatrix} b & a \end{bmatrix} \begin{bmatrix} 1 \\ x_i \end{bmatrix} \\ &= \begin{bmatrix} a & b \end{bmatrix} \begin{bmatrix} x_i \\ 1 \end{bmatrix} \\ &= {\color{red} \begin{bmatrix} x_i & 1 \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} } \end{aligned}\]

์ด๋ ‡๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 3๊ฐ€์ง€ ํ‘œํ˜„์„ ๊ฐ€์ ธ์™”๋Š”๋ฐ, ์–ด๋–ค ๊ฑธ๋กœ ์ ์–ด๋„ ์ƒ๊ด€ ์—†์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ €๋Š” ๋งˆ์ง€๋ง‰ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•ด ๋ฐ์ดํ„ฐ ๋…ธ๋“œ๋ฅผ ํ–‰๋ ฌ๋กœ ํ‘œํ˜„ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

\[\begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} = \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix}\]

์ตœ์ข…์ ์œผ๋กœ $X \theta = \mathbf{y}$์˜ ํ˜•ํƒœ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค! ๋งฅ๋ฝ์— ๋”ฐ๋ผ์„œ, $A \mathbf{x} = \mathbf{b}$๋ผ๊ณ  ํ‘œํ˜„ํ•˜๊ฑฐ๋‚˜, $A \mathbf{x} = \mathbf{y}$๋ผ๊ณ  ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ๋„ ์žˆ๋Š”๋ฐ, ์ €๋Š” ๊ณต๋ถ€ํ•  ๋•Œ ํ‘œ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ํ—ท๊ฐˆ๋ ธ์–ด์„œ $X \theta = \mathbf{y}$๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค!

Get Least-squared Solution

์ด ์„ ํ˜• ์‹œ์Šคํ…œ์˜ ํ•ด๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ๊ฐ ํ–‰๋ ฌ์„ ์ •๊ทœํ™”(normalize) ํ•˜๋Š” ๊ณผ์ •์ด ํ•„์š” ํ•ฉ๋‹ˆ๋‹ค. ๋ณ„๊ฑด ์•„๋‹ˆ๊ณ , ํ–‰๋ ฌ์„ ํ’€๊ธฐ ์œ„ํ•ด $n \times n$ ์ •์‚ฌ๊ฐ ํ˜•ํƒœ๋กœ ๋ฐ”๊ฟ”์ฃผ๋Š” ์ž‘์—… ์ž…๋‹ˆ๋‹ค.

\[X^T X \, \theta = X^T \mathbf{y}\]

์ด๋ ‡๊ฒŒ ์–‘๋ณ€์— $X^T$๋ฅผ ๊ณฑํ•ด์ฃผ๋ฉด, ํ–‰๋ ฌ์ด ์ •์‚ฌ๊ฐ ํ–‰๋ ฌ๋กœ ๋ฐ”๋€๋‹ˆ๋‹ค.

์•„๊นŒ์˜ ์˜ˆ์‹œ์— ์ ์šฉํ•˜๋ฉด,

\[X^T X = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} = \begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix}\] \[X^T \mathbf{y} = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} = \begin{bmatrix} 20 \\ 9 \end{bmatrix}\]

์ด์ œ ์ƒˆ๋กญ๊ฒŒ ๊ตฌํ˜„ ์ •๊ทœ ๋ฐฉ์ •์‹์„ ํ’€์–ด์ค๋‹ˆ๋‹ค.

\[\begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} = \begin{bmatrix} 20 \\ 9 \end{bmatrix}\]

๊ฐ„๋‹จํ•œ $2 \times 2$ ์‹œ์Šคํ…œ์ด๋‹ˆ ๊ณ„์‚ฐ์€ ์ƒ๋žต ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ ์ตœ์ข…ํ•ด๋กœ $a = 1$, $b = 1$์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ, LS ๋ฐฉ๋ฒ•์œผ๋กœ ์–ป๋Š” ์†”๋ฃจ์…˜ ์ง์„ ์€

\[y = 1 \cdot x + 1\]

์ด ๋ฉ๋‹ˆ๋‹ค.

Residual Vector

โ€œ์ž”์ฐจ ๋ฒกํ„ฐโ€๋Š” ์‹ค์ œ ๊ด€์ธก๊ฐ’๊ณผ ๊ทผ์‚ฌ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ๋งํ•ฉ๋‹ˆ๋‹ค.

\[\mathbf{r} = \mathbf{y} - X \mathbf{\theta}_{\text{ls}}\]

์‚ดํŽด๋ณธ ์˜ˆ์ œ์— ๋Œ€ํ•ด์„œ ์ž”์ฐจ๋ฅผ ๊ตฌํ•ด๋ด…์‹œ๋‹ค.

\[\begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} - \begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \end{bmatrix} = \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} - \begin{bmatrix} 2 \\ 3 \\ 4 \end{bmatrix} = \mathbf{0}\]

์˜ˆ์ œ์—์„œ ์‚ดํŽด๋ณธ ๊ฒฝ์šฐ๋Š” ์ž”์ฐจ๊ฐ€ ์˜๋ฒกํ„ฐ ์ž…๋‹ˆ๋‹ค! ์ด๊ฒƒ์€ ์ฃผ์–ด์ง„ 3๊ฐœ์˜ ๋ฐ์ดํ„ฐ ๋…ธ๋“œ๊ฐ€ ์ง์„  $y = x + 1$์— ์™„์ „ํžˆ ์ผ์น˜ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค! ์ด๋ ‡๊ฒŒ ์ž”์ฐจ๊ฐ€ ์—†์„ ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ๋Š” ์ž”์ฐจ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค ใ…‡ใ……ใ…‡

๋งบ์Œ๋ง

์ด์–ด์ง€๋Š” ํฌ์ŠคํŠธ์—์„œ๋Š” โ€œContinuous Least-square Methodโ€œ๋ผ๋Š” ๊ธฐ๋ฒ•์„ ์‚ดํŽด๋ด…๋‹ˆ๋‹ค! ์ด ๊ธฐ๋ฒ•์—์„œ๋Š” ๋ฐ์ดํ„ฐ ๋…ธ๋“œ๊ฐ€ ์•„๋‹ˆ๋ผ ๊ตฌ๊ฐ„ $(a, b)$๋งŒ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค!