Segmented Least Squares
2020-1ํ๊ธฐ, ๋ํ์์ โ์๊ณ ๋ฆฌ์ฆโ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
์ฌ์ค ์ด๋ฒ์ ๋ค๋ฃฐ <Segmented Least Squares>๋ ์ ๊ท ์์ ์ ์์ PPT์ ํ ํ์ด์ง ๋ฑ์ฅํ๊ฒ ์ ๋ถ์ธ ์๊ณ ๋ฆฌ์ฆ ์ ๋๋ค. ๊ต์ฌ์ธ ใAlgorithms(Dasgupta)ใ์๋ ๊ธฐ์ ๋์ด ์์ง ์์ ์ฃผ์ ์ ๋๋ค. ๐คช
<Linear Regression Problem>์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ์ ๊ทผ์ธ <Least Square Method>๋ ์์ฐจ์ ๊ณฑํฉ(residual square sum)์ด ์ต์๊ฐ ๋๋๋ก regression ํจ์๋ฅผ ์ ๋ํ๋ค.
Image from kartikkukreja' article
<LS Method>์ ๋ํด ๋ ๊ถ๊ธํ๋ค๋ฉด, โIntroduction to Linear Regressionโ ์ํฐํด์ ์ฝ์ ๊ฒ์ ์ถ์ฒํ๋ค ๐
๊ทธ.๋ฌ.๋. ๋๋ก๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํ regression ์์ ํ๋์ ์ ํ ๋ชจ๋ธ๋ก ํํํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ด ๊ฒฝ์ฐ๋ ์ฐจ์(degree)๋ฅผ ๋์ฌ ๊ณก์ ์ผ๋ก ๋ชจ๋ธ์ fitting ํ๊ฑฐ๋ ๊ตฌ๊ฐ์ ๋๋์ด ๊ฐ ๊ตฌ๊ฐ ๋ณ๋ก regression fitting์ ํ๋ ๋ฐฉ๋ฒ์ด ์๋ค.
์ด๋ฒ์ ๋ค๋ฃฐ ์ฃผ์ ์ธ <Segmented Least Squares> ๋ฐฉ๋ฒ์ ํ์์ ๋ฐฉ์์ผ๋ก ๋๋ฉ์ธ์ ๋ถํ ํด ์ป์ segment์ ๋ํด regression fitting์ ํ๋ ๋ฐฉ์์ด๋ค.
Image from kartikkukreja' article
์์ ๊ทธ๋ฆผ์ ๋๋ฉ์ธ์ 3๊ฐ์ segment๋ก ๋ถํ ํด regression fitting ํ ๊ฒฐ๊ณผ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋๋ฉ์ธ์ ๋ถํ ํด fitting ํ๋ ๊ฒฝ์ฐ, ๋๋ฉ์ธ์ ์ผ๋ง๋ ๋๋์ง ๊ทธ๋ฆฌ๊ณ ์ด๋์์ ๋๋์ง ๋ฏธ๋ฆฌ ์ ํ๊ณ fitting์ ์งํํ๋ค. ์ฆ, segment selection์ ์งํํด์ผ ํ๋ค๋ ๋ง์ด๋ค. ๊ทธ๋ฌ๋ <Segmented Least Squares> ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ฉด ์ผ๋ง๋ ๋๋์ง ์ด๋์์ ๋๋์ง๋ฅผ ์์์ ๊ฒฐ์ ํด fitting ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค!! ๐ฒ
<Segmented Least Squares> ๋ฌธ์ ๋ฅผ ๊ธฐ์ ํ๋ฉด ์๋์ ๊ฐ๋ค.
For the set of $n$ points in the plane $(x_1, y_1), โฆ, (x_n, y_n)$ with $x_1 \le \cdots \le x_n$.
Let $S(a, b)$ the subset of points where $S(a, b) = \{ (x_i, y_i) \mid a \le i < b \}$, and then let $E(S(a, b))$ be the residual sum of the fitting for $S(a, b)$.
Then, the total residual error is
\[E = \sum_i E(S(t_i, t_{i+1})) \quad \text{where} \quad [t_i, t_{i+1}) \in [x_1, x_n]\]Find a poly-line that minimizes
\[f(x) = E + c \cdot L\]where $L$ is the number of segments, and $c$ is a positive constant.
์ค์ฐจํฉ $E$๋ฅผ ์ต์ํ ํ๋ ค๋ฉด segment๋ฅผ ์ ์ฒด ๋ฐ์ดํฐ์ ์์ธ $n$ ๋งํผ ๋๋์ด fitting์ ์งํํ๋ฉด ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฐ ๋ชจ๋ธ์ generalization ์ธก๋ฉด์์ ๊ฒฐ์ฝ ์ข์ ๋ชจ๋ธ์ด ์๋๋ค. ๋ฐ๋๋ก ๋ฐ์ดํฐ๋ฅผ $n$๊ฐ๋ก ๋๋์ง ์๊ณ $n$๊ฐ ์ ์ค์ combination์ ๊ตฌํ๋ ค๊ณ ํ๋ค๋ฉด ๊ทธ๊ฒ ์ญ์ ์กฐํฉํญ๋ฐ(combinatorial explosion)์ ์ง๋ฉดํ๊ณ ๋ง๋ค.
๊ฒฐ๊ตญ <Segmented Least Squares> ๋ฌธ์ ๋ tradeoff function $f(x)$๋ฅผ ํตํด accuracy(goodness of fit)๊ณผ parsimony(number of lines) ์ค ์ ์ ํ ๊ท ํ์ ์ฐพ๋ ์ต์ ํ ๋ฌธ์ ๋ผ๊ณ ํ ์ ์๋ค.
<Segmented Least Squares> ๋ฌธ์ ๋ DP๋ฅผ ์ฌ์ฉํ๋ฉด ์์ฃผ ์ฝ๊ฒ ํด๊ฒฐํ ์ ์๋ค!
$DP[j]$๋ points $p_1, โฆ, p_j$๊น์ง ์ฌ์ฉํ์ ๋์ ์ต์ ํด์ cost๋ฅผ ๋งํ๋ค. $e(i, j)$๋ โminimum squared from $p_i$ to $p_j$โ๋ฅผ ์๋ฏธํ๋ฉฐ <OLS; Ordinary Least Square>๋ก ์ ๋๋๋ ๊ฐ์ด๋ค.
์๊ณ ๋ฆฌ์ฆ์ ์์ด๋์ด๋ โ์ถ๊ฐ๋๋ ์ $p_j$๋ ์ด๋ค ์ $p_i$๋ก๋ถํฐ ์์ํ๋ segmented fitting์ ์ํ ๊ฒ์ด๋คโ์์ ์ถ๋ฐํ๋ค. ๋ง์ฝ ์ฐ๋ฆฌ๊ฐ $DP[i-1]$์ ๋ํ ๊ฐ์ ์๊ณ ์๋ค๋ฉด, ์ $p_j$๋ฅผ ์ถ๊ฐํด $\{ p_i, โฆ, p_j\}$๋ก fitting ํ ๊ฒฐ๊ณผ์ $p_{i-1}$์์์ optimal fitting ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํด ์ต์ ํด๋ฅผ ์ ๋ํ ์ ์๋ค!
์ด๋ฅผ ๊ธฐ์ ํ๋ฉด ์๋์ ๊ฐ๋ค.
\[DP[j] = \min_{1 \le i \le j} \left\{ e(i, j) + C + DP[i-1] \right\}\]์ต์ ํด์ ๊ฒฐ๊ณผ๋ฅผ ๋ณต์ํ ๋๋ $DP[j]$๋ฅผ ๊ตฌํ๋ ๊ณผ์ ์์ ์ฌ์ฉ๋ index $i$๋ฅผ ๋ณ๋๋ก ์ ์ฅํ ํ์ back-tracking ํ์ฌ ๋ณต์ํ๋ฉด ๋๋ค!
์๊ฐ๋ณต์ก๋๋ฅผ ์ ๋ํ๋ฉด,
- ์ ์ฒด ๊ณผ์ ์์ $O(n^2)$๊ฐ ๋งํผ์ $e(i, j)$๋ฅผ ๊ตฌํด์ผ ํจ.
- $e(i, j)$ ํ๋์ ๊ฐ์ ๊ณ์ฐํ ๋ $O(n)$ ๋งํผ์ ์๊ฐ์ด ๊ฑธ๋ฆผ.
๋ฐ๋ผ์ ์๊ฐ๋ณต์ก๋๋ $O(n^3)$์ด๋ค. naiveํ ์ ๊ทผ์์ exponential time์ด ๊ฑธ๋ ธ๋ ๊ฑธ ์๊ฐํ๋ฉด ์ ๋ง ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ ์ ์ด๋ค! ๐คฉ
<Segmented Least Squares>๋ ์ ๊ท ์์ ์ ๋ค์ ๋ ๊ณผ์ ๋ก ํ๋ฒ ๊ตฌํํด๋ดค๋ ๊ธฐ์ต์ด ์๋๋ฐ, ๊ตฌํ์ด ๊ทธ๋ ๊ฒ ์ด๋ ต์ง๋ ์์๋ ๊ฑธ๋ก ๊ธฐ์ตํ๋ค.
<Segmented Least Squares> ์๊ณ ๋ฆฌ์ฆ์ ๊ณต๋ถํ๋ฉด์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋(IMEN472)โ์์ ๋ค์๋ <Regression Spline>์ด ๋ํด ๋ ์ฌ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ ์ญ์ ๋๋ฉ์ธ์ ๋ถํ ํด regression fitting ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๋ค๋ง <Regression Spline>์ ๊ฒฝ์ฐ ๊ณก๋ฅ (curverture)๊น์ง ๊ณ ๋ คํด fitting์ ์งํํ๋ฉฐ, ๊ตฌ๊ฐ์ ์ผ๋ง๋ ๋๋์ง ์ ํํ๋ knot selection์ cross validation ๊ณผ์ ์ ํตํด ์งํํ๋ค๋ ์ ์ด <Segmented Least Squares> ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋ค๋ฅด๋ค! ๐คฉ