Regression Spline
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
์ด์ ์ฑํฐ์์๋ parameter๋ฅผ ์ถ๋ก ํด linear regreeion & linear classification์ ์ํํ๋ ๋ฐฉ๋ฒ์ ์ดํด๋ณด์๋ค.
\[f(x) = E[Y \mid X = x] = \beta^T x\]์ด๋ฒ ์ฑํฐ์์๋ non-linear model์ ๋ํด ์ดํด๋ณผ ์์ ์ด๋ฉฐ, <Basis Expansion>๊ณผ <Kernel Method>์ ์ค์ฌ์ผ๋ก non-linear model์ ์ดํด๋ณธ๋ค!
Basis Expansion
Definition. Basis expansion
For $m=1, \dots, M$, let $h_m: \mathbb{R}^p \rightarrow \mathbb{R}$ be the $m$-th transformation of $X$.
Then, we model as
\[f(X) = \sum^M_{m=1} \beta_m h_m (X)\]with a linear basis expansion in $X$.
Example.
1. 1-dimensional projection
\[h_m(X) = X_m \quad \text{for} \quad m=1, \dots, p\]2. Covariatic transform (์ ์ ๋ช ์นญ์ ์๋๊ณ , Cov ๊ฐ์ ๋๋์ด๋ผ ๋ณธ์ธ์ ์ด๋ ๊ฒ ๋ถ๋ฅธ๋ค.)
\[h_m (X) = X^2_j \quad \text{or} \quad h_m(X) = X_j X_k\]3. log transform or root transform
\[h_m(X) = \log (X_j) \quad \text{of} \quad h_m (X) = \sqrt{X_j}\]4. range transform
\[h_m(X) = I(L_m \le X_k < U_m)\]ํน์ ๋ฒ์์ ๋ฐ๋ผ $X_k$๋ฅผ ์ ๋จํ๋ transform์ด๋ค.
5. Splines ๐ฅ
๊ณง ๋ง๋ ์์ !
6. Wavelet bases
์ ๋ง ์ค์ํ๊ฒ ์ฐ์ด๋ ๋ฐฉ๋ฒ์ด์ง๋ง, ์ ๊ท ์์ ์์๋ ๋ค๋ฃจ์ง ์์๋ค.
Polynomial Regression
-- Weierstrass's Approximation Theorem
For $p$-dimensional $X$, the $m$-th order polynomial is given as
\[f(X) = \beta_0 + \left(\sum^p_{j=1} \beta_j X_j\right) + \left(\sum^{p^2}_{j,k} \beta_{jk} X_j X_k\right) + \cdots + \left(\sum^{p^m}_{j_1, \dots, j_m} \beta_{j_1, \dots, j_m} X_{j_1} \cdots X_{jm} \right)\]- As $p$ increases, the # of parameters grows exponentially.
- In general, it is difficult to estimate $p$-dimensional regression function for large $p$.
๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฐ $m$-th order polynomial ๋ฐฉ์์ <Multi-collinearity>์ ๋ํ ๋ฌธ์ ๋ ๊ฐ์ง๊ณ ์๋ค. ๐
๋ ผ์์ ํธ์๋ฅผ ์ํด $p=1$๋ผ๊ณ ํ์. ๊ทธ๋ฆฌ๊ณ , $X_i$๋ฅผ ์๋์ ๊ฐ์ด ๋์์ธ ํ์.
Let $X_1 \sim \text{Unif}(0, 1)$, and $X_m = X_1^m$ for $m \le 4$.
์ด๋, $X_1, \dots, X_4$์ Corr๋ฅผ ๊ตฌํด๋ณด๋ฉด,
\[\text{Corr}(X_1, \dots, X_4) = \begin{bmatrix} 1.00 & 0.97 & 0.92 & 0.86 \\ 0.97 & 1.00 & 0.98 & 0.95 \\ 0.92 & 0.98 & 1.00 & 0.99 \\ 0.86 & 0.95 & 0.99 & 1.00 \end{bmatrix}\]์ ๊ฐ์๋ฐ, Corr์ ๊ฐ์ ์ดํด๋ณด๋ฉด, ๋ชจ๋ 1์ ๊ฐ๊น์ด ๊ฐ์ ๊ฐ์ง๋ค. ์ด๊ฒ์ ๊ฐ ๋ ๋ฆฝ๋ณ์ ์ฌ์ด์ ๊ฐํ ์๊ด๊ด๊ณ๊ฐ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, ์ด๊ฒ์ <Multi-collinearity; ๋ค์ค๊ณต์ ์ฑ>์ด๋ผ๊ณ ํ๋ค.
- High order polynomials are often unstable at the boundary.
โ bad!!! ๐ฅ
<Polynomial Regression>์์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํจ์๋ฅผ local๋ก ๋ถํ ํด ๊ทผ์ฌํ๋ <Local Polynomial Regression> ๋ฐฉ์์ด ์ ์ ๋์๋ค.
Local Polynomial Regression
-- Talyor's Theorem
Supp. that $p=1$. Divide domain interval $(a, b)$ into $K+1$ sub-intervals $(a=\xi_0, \xi_1], (\xi_1, \xi_2], \dots, (\xi_k , b=\xi_{k+1})$.
Then, a local polynomial regression model is given as
\[f(X) = \sum^{K+1}_{i=1} f_{i}(X) \cdot I(\xi_{i-1} < X \le \xi_i)\]where $f_i$ are polynomials and $\xi_i$ are the knots.
์์์ ์ดํด๋ณธ <Polynomial Regression>๊ณผ ๋น๊ตํ์ ๋, ๋ฒ์ ์ ์ฒด๋ฅผ ๋๋ฉ์ธ์ผ๋ก ๊ฐ๋ polynomial์ ์ทจํ๋ ๊ฒ์ด ์๋๋ผ domain interval์ ๋ถํ ํด polynomial fitting์ ํ๋ค๋ ์ ์ด ๋ค๋ฅด๋ค.
Example. Constant & Linear
$f_i$๋ฅผ constant function, linear function์ผ๋ก ๋ชจ๋ธ๋ง ํ์ ๋์ ๊ฒฐ๊ณผ์ด๋ค. ๊ทธ๋ฆผ์์๋ ๋ณผ ์ ์๋ฏ์ด knots ์ฃผ๋ณ์์ continuous ํ์ง ์๋ค. ์ด๊ฑธ non-continuous ํ์์ order๊ฐ ์ปค์ ธ๋ ์ฌ์ ํ ๋ฐ์ํ๋ค. ๐ฅ
<Regression Spline>์ <Local Polynomial Regression>์ โcontinuous & continuous derivative์ ๋ํ ์ ์ฝโ์ ์ฃผ์ด non-continuous ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค!
Regression Spine
Definition. Regression Polynomial Spline
Given a fixed knot sequence $\xi_1, \dots, \xi_K$,, a function defined on an open interval $(a, b)$ is called a <regression (polynomial) spline of order $M$> if it is a piecewise polynomial of order $M$ on each of the intervals.
\[(a=\xi_0, \xi_1], (\xi_1, \xi_2], \dots, (\xi_k , b=\xi_{k+1})\]and has continuous derivatives up to order $(M-1)$.
์์์ ์ดํด๋ณธ <Local Polynomial Regression>์ not-continuous ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด <Regression Spline>์์๋ piecewise polynomial์ด $(M-1)$์ฐจ ์ฐ์์ธ ๋ํจ์๋ฅผ ๊ฐ์ ธ์ผ ํ๋ค๋ ์กฐ๊ฑด์ด ์ถ๊ฐ๋ ๊ฒ์ด๋ค!!
Example. 3rd-order polynomial ($M=3$)
์ผ์ชฝ์ ์์์ ์ดํด๋ณธ <Local polynomial regression>์ ๋ชจ๋ธ์ด๋ค. knot์์ not-continuousํ๋ค.
์ค๋ฅธ์ชฝ์ knot์์ continuousํด์ผ ํ๋ค๋ ์ ์ฝ์ ์ค ๋ชจ๋ธ์ด๋ค.
์ด๋ $x \mapsto a_3 x^3 + a_x x^3 + a_1 x + a_0$์ธ ๊ฐ $f_i\left((\xi_{i-1}, \xi_i]\right)$์ ๋ํด
\[f_i(\xi_i) = f_{i+1}(\xi_i)\]๋ผ๋ ์กฐ๊ฑด์ด ์ถ๊ฐ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ณง, $f_i(\xi_i) = f_{i+1}(\xi_i)$์ด๊ธฐ ๋๋ฌธ์, $f_{i+1}$์์ $b_4, b_3, b_2$์ ๋ํ ๊ฐ์ด ์ ํด์ก๋ค๋ฉด, ์๋์ผ๋ก $b_0$์ ๊ฐ์ด ๊ฒฐ์ ๋๋ค.
\[a_3 x^3 + a_2 x^2 + a_1 x + a_0 = b_3 x^3 + b_2 x^2 + b_1 x + \cancelto{\text{calculated by constraint}}{b_0}\]๋ฐ๋ผ์, estimate ํด์ผ ํ๋ Coefficients์ ๊ฐฏ์๋
\[(M+1)(K+1) - (K-1)\](ex: If $M=3$ and $K=2$, then we need to estimate $4 + 4 - 1$ coefficients.)
Example. 3rd-order polynomial with 1st & 2nd derivative
์ด๋ฒ์๋ โknot์์ continuousโ ์กฐ๊ฑด๊ณผ ํจ๊ป โknot์์ 1st/2nd derivatives continuousโ ์กฐ๊ฑด์ด ์ถ๊ฐ๋์๋ค.
์ด๋ฅผ ๋ง์กฑํ๋ ค๋ฉด, $f_iโ (\xi_i) = f_{i+1}โ(\xi_i)$๋ฅผ ๋ง์กฑํด์ผ ํ๋ฉฐ, ์ด๊ฒ์ ๊ณง
\[3 a_3 x^2 + 2 a_2 x + a_1 = 3 b_3 x^2 + 2 b_2 x + \cancelto{\text{calculated by constraint}}{b_1}\]์ด๋ฏ๋ก constraint๋ฅผ ํตํด $b_1$์ ๊ฐ์ ์ ํ ์ ์๋ค๋ ๋ง์ด ๋๋ค. 2nd derivative continuous์ ๋ํด์๋ ๋์ผํ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผํ๋ฉด ๋๋ค.
๋ฐ๋ผ์, estimate ํด์ผ ํ๋ Coefficients์ ๊ฐฏ์๋
\[(M+1)(K+1) - MK = M + K + 1\]Spline basis function
Notation.
๋๋
\[(x-\xi)_{+}^M = \begin{cases} (x-\xi)^M & \text{if} \quad x > \xi \\ 0 & \text{else} \end{cases}\]Example.
๋ง์ฝ $M=1$(linear) and $K=2$๋ผ๋ฉด, spline basis function์ ์๋์ ๊ฐ๋ค.
๋ง์ฝ $M=3$(cubic) and $K=2$๋ผ๋ฉด, spline basis function์ ์๋์ ๊ฐ๋ค.
Natural Cubic Spline
์๋ฒฝํ ๊ฒ ๊ฐ์ <Regression Spline> ๋ฐฉ์๋ ์์ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ๋ฐ๋ก ์๋ boundary์์ regression์ด ์ ์ ๋๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด <Natural cubic spline>์ ์๋์์ linear๋ก ๋ชจ๋ธ๋ง ํ๋ค.
Definition. Natural Cubic Spline
A cubic spline is called a <natural cubic spline>, if it is linear beyond the boundary knots $\xi_1$ and $\xi_K$.
(์ถ์ฒ: Stanford - STAT202)
๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด ๋์ ์ฐจ์์ $M$์ผ๋ก ๊ทผ์ฌํ ์๋ก <Regression Spline>์ boundary์์ ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฑธ ๋ณผ ์ ์๋ค. <Natural Cubic Spline>์ ์๋์์ linear๋ก ๊ทผ์ฌํจ์ผ๋ก์จ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค!
<Natural Cubic Spline>์์ estimate ํด์ผ ํ๋ Coefficient ์๋ $M=3$์ด๋ฏ๋ก
\[(M + K + 1) - (2 \times 2) = (3 + K + 1) - 4 = K\]Smoothing Splines
<knot selection>์ Spline Method์ ์ฃผ๋ ์ด์์ด๋ค. <smoothing spline>์ ์ด ๋ฌธ์ ๋ฅผ ์๋์ ๊ฐ์ด ํด๊ฒฐํ๋ค!
Consider $\hat{f} = \underset{f\in\mathcal{F}}{\text{argmin}} \; \text{RSS}_{\lambda}(f)$, where
\[\text{RSS}_{\lambda} \; (f) = \left(\sum^n_{i=1} \left\{ y_i - f(x_i)\right\}^2\right) + \lambda \int \left\{ f''(t) \right\}^2 \; dt\]and $\lambda$ is a fixed smoothing parameter.
์์ ์์ ์ ์ดํด๋ณด๋ฉด, RSS ์์ ํจ๋ํฐ ํ ์ด ์๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด๋, ํจ๋ํฐ ํ ์์๋ $fโ'(t)$๋ฅผ ์ ๋ถํ๋๋ฐ, ์ด๊ฒ์ ํจ์ $f(t)$์ ๋ํ <๊ณก๋ฅ ; curverture>๋ฅผ ์๋ฏธํ๋ค. $(fโ'(t))^2$๋ ๊ณก๋ฅ ์ ์ ๋๊ฐ์ด๋ฉฐ, ๋ฐ๋ผ์ ํจ๋ํฐ ํ ์ ํจ์ $f(t)$๊ฐ ์ผ๋ง๋ flunctuation์ด ์ฌํ์ง๋ฅผ ์ธก์ ํ๋ ํ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
์์ ์ต์ ํ ๋ฌธ์ ์ solution์ธ $\hat{f}$๋ฅผ <smoothing spline estimator>๋ผ๊ณ ํ๋ค!
1. If $\lambda = 0$,
then $\hat{f}$ can be any function that interpolates the data.
2. If $\lambda = \infty$,
then $\hat{f}$ is the least square estimator. (์๋ํ๋ฉด, $fโ'(t)=0$์ด ๋๋ ค๋ฉด, $f(t)$๊ฐ linear function์ด์ด์ผ ํ๋ค!)
3. (general case) small $\lambda$
model complexity $\uparrow$ / bias $\downarrow$ / variance $\uparrow$
(= flunctuation์ด ์ฌํด์ง!)
4. (general case) large $\lambda$
model complexity $\downarrow$ / bias $\uparrow$ / variance $\downarrow$
๋ง์ฝ $\mathcal{F}$๊ฐ ํน์ <Sobolev space>์ ์ํ๋ ์ด๋ค ํจ์๋ผ๋ฉด, smooth spline์ด ๊ณง natural cubic spline์ด ๋๋ค๊ณ ํ๋ค.
ESL, Exercise 5.7
์์์ ์ดํด๋ณธ Smoothing Spline์ ๋ํ ์์ infinite-dimensional problem์ด์๋ค ์ด๊ฒ์ linear fit ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ ์๋ ์๋๋ฐ, ๊ทธ ์์ ์๋์ ๊ฐ๋ค.
\[f(\theta; x) = \sum^n_{j=1} \theta_j N_j (x)\]where $N_j$ are basis functions of natural cubic splines.
Then,
\[\text{RSS}_{\lambda} \; (\theta) = (\mathbf{y} - \mathbf{N}\theta)^T (\mathbf{y} - \mathbf{N}\theta) + \lambda \cdot \theta^T \mathbf{\Omega} \theta\]where \(\mathbf{N}_{ij} = N_j(x_i)\) and $\displaystyle\mathbf{\Omega}_{ij} = \int {N_i}โ' (t) {N_j}โ'(t) \; dt$.
์์ด ์กฐ๊ธ ๋ณต์กํด๋ณด์ด์ง๋ง, ์์์ ์ ์ํ $f(\theta; x)$๋ฅผ smoothing spline์ ์์ ๋ง๊ฒ ๊ธฐ์ ํ ๊ฒ์ผ ๋ฟ์ด๋ค!
์์ $\text{RSS}_{\lambda}(\theta)$๋ฅผ ๊ตฌํ๋ ๊ฒ์ ๊ทธ๋ฅ $\theta$๋ก ๋ฏธ๋ถํด์ ์ต์๊ฐ ๋๋ $\theta$๋ฅผ ๊ตฌํด์ฃผ๋ฉด ๋๋ค.
\[\hat{f}(x) = \sum^n_{j=1} \hat{\theta}_j N_j(x)\]where
\[\hat{\theta} = (\mathbf{N}^T \mathbf{N} + \lambda \mathbf{\Omega})^{-1}\mathbf{N}^T \mathbf{y}\]๋ด๋ถ์ regularization ํ ์ผ๋ก ์ธํด $\lambda \mathbf{\Omega}$๊ฐ ์๊ฒผ๋ค!
์ด์ด์ง๋ ํฌ์คํธ์์๋ spline method์ ๋จ์ ๋ด์ฉ์ ์ข๋ ์ดํด๋ณธ๋ค. ๐คฉ
๐ Spline Method (2)