Supp-1: Linear Algebra - 4
2021-1ํ๊ธฐ, ๋ํ์์ โํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋โ ์์ ์ ๋ฃ๊ณ ๊ณต๋ถํ ๋ฐ๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค. ์ง์ ์ ์ธ์ ๋ ํ์์ ๋๋ค :)
Set-up
์ด๋ค ํ๋ ฌ $A$์ ๋ํด ๊ทธ ํ๋ ฌ์ ์ ๊ณฑ๊ทผ ํ๋ ฌ์ ์ฐพ์ ์ ์์๊น? ๊ทธ๋ฌ๋๊น ์ด๋ค ํ๋ ฌ $B$๊ฐ ์์ด $B B = A$๊ฐ ๋๋ ๊ทธ๋ฐ ํ๋ ฌ์ ์ฐพ์ ์ ์๋์ง์ ๋ํ ์ง๋ฌธ์ด๋ค.
์ฐ์ ํ๋ ฌ์ด ์ ๊ณฑ๊ทผ์ ๊ฐ์ง๋ ์ข์ ์ฑ์ง์ ๊ฐ์ง๋ ค๋ฉด, ํ๋ ฌ $A$๊ฐ symmetric matrix๊ฐ ๋์ด์ผ ํ ๊ฒ์ด๋ค; $A \in \mathbb{R}^{n\times n}$.
์ค์ ์์ญ์์๋ ์ด๋ค ์ $x$๊ฐ ์ ๊ณฑ๊ทผ์ ๊ฐ์ง๋ ค๋ฉด, ๊ทธ ์๊ฐ $x \ge 0$ ์ฌ์ผ ํ๋ค. (๋ณต์ ์ ๊ณฑ๊ทผ๋ ์์ง๋ง, ์ฌ๊ธฐ์๋ ์ค์ ์์ญ ์์ ์ ์๋ ์ ๊ณฑ๊ทผ ์ฐ์ฐ์ ์๊ฐํ์.) ์ฆ, ์ ๊ณฑ๊ทผ์ ์ ์ํ๊ธฐ ์ํด์ non-negativeโ์ ๋ํ ๊ฐ๋ ์ ํ๋ ฌ์ ์์ญ์ผ๋ก ๋์ด์ฌ๋ ค์ผ ํ๋ค. ๊ทธ๋ฐ ์ ์์ ์ด๋ฒ์ ์ดํด๋ณผ <Nonnegative Definite>๋ โnon-negativeโ๋ฅผ ํ์ฅํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ์ข๋ค.
Nonnegative Definite Matrices
Theorem.
For a symmetric matrix $A \in \mathbb{R}^{n \times n}$, T.F.A.E.
(1) $A$ is <non-negative definite>, denoted $A \succeq 0$:
\[\mathbf{x}^T A \mathbf{x} \ge 0 \quad \text{for every} \quad \mathbf{x} \in \mathbb{R}^{n}\](2) All eigenvalues of $A$ are non-negative.
(3) $A = B^T B$ for some $B$.
(4) $A$ is variance-covariance matrix of some randome variable.
<Nonnegative Definite>์ ์๋ฏธ๋ฅผ ์ข๋ ์ดํด๋ณด์. $A$๊ฐ symmetric matrix์ด๋ฏ๋ก <spectral decomposition>์ด ๊ฐ๋ฅํ๋ค; $A = UDU^T$
\[\begin{aligned} A = UDU^T = d_1 \mathbf{u}_1 \mathbf{u}_1^T + \cdots + d_n \mathbf{u}_n \mathbf{u}_n^T \end{aligned}\]์ฌ๊ธฐ์ ์ข์ฐ์ ๋ฒกํฐ $\mathbf{x}$๋ฅผ ๊ณฑํด์ฃผ์.
\[\begin{aligned} \mathbf{x}^T A \mathbf{x} &= \mathbf{x}^T \left( d_1 \mathbf{u}_1 \mathbf{u}_1^T + \cdots + d_n \mathbf{u}_n \mathbf{u}_n^T \right) \mathbf{x} \\ &= d_1 (\mathbf{u}_1^T \mathbf{x})^2 + \cdots + d_n (\mathbf{u}_n^T \mathbf{x})^2 \quad (\because \mathbf{x}^T \mathbf{u}_i {\mathbf{u}_i}^T \mathbf{x} = \mathbf{x}^T \mathbf{u}_i \cdot {\mathbf{u}_i}^T \mathbf{x} ) \end{aligned}\]๋ง์ฝ $\mathbf{x}^T A \mathbf{x} \ge 0$์ด ๋๊ธฐ ์ํด์ ์ด๋ค ์กฐ๊ฑด์ด ํ์ํ ๊น? ์ฐ์ ์์ ์ฐ๋ณ์์ $(\mathbf{u}_1^T \mathbf{x})^2 \ge 0$์ด ์๋ค๋ ๊ฒ์ ์ฃผ๋ชฉํ์. ๋ฐ๋ผ์, ๋ง์ฝ ๋ชจ๋ $d_i$๊ฐ non-negative๋ผ๋ฉด, ์ฐ๋ณ์ ๋น์ฐํ non-negative๊ฐ ๋ ๊ฒ์ด๋ค! ์ด๊ฒ์ผ๋ก ($\impliedby$) ๋ฐฉํฅ์ ์ฆ๋ช ํ๋ค.
($\implies$) ๋ฐฉํฅ์ ์ฆ๋ช ํ๋ ค๋ฉด, $\mathbf{x} = \mathbf{u}_i$๋ก ์ค์ ํด๋ณด๋ฉด ๋๋ค.
\[{\mathbf{u}_i}^T A \mathbf{u}_i = d_i ({\mathbf{u}_i}^T \mathbf{u}_i)^2 \ge 0\]์์ ๋ถ๋ฑ์์ ๋ง์กฑํ๊ธฐ ์ํด์๋ $d_i \ge 0$์ด ๋์ด์ผ ํ๋ค.
$\blacksquare$
Positive Definite Matrices
Theorem.
For a symmetric matrix $A \in \mathbb{R}^{n \times n}$, T.F.A.E.
(1) $A$ is <positive definite>, denoted $A \succ 0$:
\[\mathbf{x}^T A \mathbf{x} > 0 \quad \text{for every} \quad \mathbf{x} \in \mathbb{R}^{n} \setminus \{\mathbf{0}\}\](2) All eigenvalues of $A$ are positive.
(3) $A = B^T B$ for some non-singular $B$.
(4) $A$ is non-negative definite and non-singular.
(5) There exist linearly independent vectors $\mathbf{u}_1, \cdots, \mathbf{u}_n \in \mathbb{R}^n$ s.t. \(\displaystyle A = \sum^n_{j=1} {\mathbf{u}_j}^T \mathbf{u}_j\)
(4)๋ฒ ๋ช ์ ๋ฅผ ์ข๋ ์ดํด๋ณด์. ํ๋ ฌ $A$๊ฐ SDP(symmetric and positive definite)๋ผ๋ฉด, ์ฐ๋ฆฌ๊ฐ ์ด๋ป๊ฒ $A^{1/2}$๋ฅผ ์ฐพ์ ์ ์์๊น? ๋ต์ ์ญ์ <Spectral Decomposition>์ ์๋ค!!
<Spectral Decomposition>์ ์ํด ํ๋ ฌ $A$๋ ์๋์ ๊ฐ์ด ๋ถํด๋๋ค.
\[A = UDU^T\]๋ง์ฝ ์ด๋ $A^2$์ ๊ตฌํ๋ค๋ฉด,
\[A^2 = A \cdot A = (UDU^T) (UDU^T) = UD^2 D^T\]์ฆ, orthogonal matrix $U$๋ผ๋ ์ข์ ๋ ์์ด ์๊ธฐ ๋๋ฌธ์ ์ฐ๋ฆฌ๋ ํ๋ ฌ $A$์ ๋ํ ๋ฉฑ์ฐ์ฐ(power operation)์ ์ฝ๊ฒ ํ ์ ์๋ค!!
์ด ๊ฐ์ ์์ด๋์ด๋ก $A^{1/2}$๋ฅผ ์ ๋ํด๋ณด์. ๊ฐ๋จํ๊ฒ ์ถ๋ก ํ๋ฉด ์๋์ ๊ฐ์ด ๋์ง ์์๊น?
\[A^{1/2} = UD^{1/2}U^T\]์ ๋ต์ด๋ค! ๋ง์ฐฌ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ์์์ ๋ํ ๋ฉฑ์ฐ์ฐ๋ ์ฝ๊ฒ ์ ์ํ ์ ์๋ค.
\[A^{-1} = UD^{-1}U^T\]Convex Function
Positive definite matrix $A$๋ฅผ ์ฌ์ฉํ๋ฉด, <convex function>2 ํ๋๋ฅผ ์ ๋ํ ์ ์๋ค. ๋จผ์ <convex function>์ ์ ์๋ถํฐ ์ดํด๋ณด์.
Definition.
A function $f: \mathbb{R}^n \rightarrow \mathbb{R}$ is called to be <convex> if
\[f(\lambda \mathbf{x} + (1-\lambda)\mathbf{y}) \le \lambda f(\mathbf{x}) + (1-\lambda) f(\mathbf{y})\]for every $\mathbf{x}, \mathbf{y} \in \mathbb{R}^n$ and $0\le \lambda \le 1$.
์์ ์ ์ดํด๋ณด๋ฉด, $\lambda \mathbf{x} + (1-\lambda)\mathbf{y}$๋ $\mathbf{x}$, $\mathbf{y}$ ์ฌ์ด์ ๋ด๋ถ์ ์ด๋ค. ๋ํ, $\lambda f(\mathbf{x}) + (1-\lambda) f(\mathbf{y})$๋ ๋ ์ $\mathbf{x}$, $\mathbf{y}$๋ฅผ ์๋ ์ง์ ์์ ํ ์ ์ด๋ค.
์ฆ, ๋ถ๋ฑ์์ด ์๋ฏธํ๋ ๋ฐ๋ ๋ด๋ถ์ ์์์ ํจ์๊ฐ์ ์ง์ ์์ ๊ฐ๋ณด๋ค ํญ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค!
<convex>์ ๋ํ ์ ๋ฆฌ๋ฅผ ์ดํด๋ณด์.
Theorem.
Let $f: \mathbb{R}^n \rightarrow \mathbb{R}$ is twice continuously differentiable, if $f$ is convex if and only if
\[\frac{\partial^2 f}{\partial \mathbf{x} \partial \mathbf{x}^T} \succeq 0\]์ฆ, ๋ ๋ฒ ๋ฏธ๋ถํ ๊ฒ์ด ํญ์ 0๋ณด๋ค ํฌ๋ค๋ฉด, convex function์ด๋ผ๊ณ ์ ์ํ ์ ์๋ค๋ ๋ง์ด๋ค! 2์ฐจ์์ $f(x) = ax^2 + bx + c$์์๋ $f''(x) = a \ge 0$ ์์ ๋ ์ฌ๋ฆฌ๋ฉด ์ข ์๋ฟ์ ๊ฒ์ด๋ค.
์ด๋ฒ์๋ $A \succeq 0$ ์ธ ํ๋ ฌ์ ๋ฐํ์ผ๋ก ์ด๋ค convex function์ ์ ๋ํด๋ณด์.
Example.
A quadratic function $f(\mathbf{x}) = \mathbf{x}^T A \mathbf{x} + \mathbf{a}^T \mathbf{x}$ is convex if and only if $A \succeq 0$.
์์ ๊ฐ์ด ํจ์ $f(x)$๋ฅผ ์ ์ํ๋ฉด, ๋ ๋ฒ ๋ฏธ๋ถํ์ ๋,
\[\frac{\partial^2 f}{\partial \mathbf{x} \partial \mathbf{x}^T} = A \succeq 0\]๊ฐ ๋๊ธฐ ๋๋ฌธ์ convex function์ด ๋๋ค. Quadratic form์์ convex์ธ ์ฑ์ง์ ์ ๋ง ์ค์ํ๋ฐ, Quadratic form์ด convex๊ฐ ๋์ด์ผ max/min์ ๋ ผํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค!
Orthogonal Projection
Definition.
For a subspace $\mathcal{L} \subseteq \mathbb{R}^n$, the <orthogonal complement> of $\mathcal{L}$ is defined as
\[\mathcal{L}^{\perp} = \{ \mathbf{x} \in \mathbb{R}^n : \mathbf{x}^T \mathbf{y} = 0 \quad \text{for all} \quad \mathbf{y} \in \mathcal{L} \}\]ํ์์ ์๊ฐํ๋ orthogonal์ ๋ํ ๊ฐ๋ ์ vector space์ ์ ์ฉํ ๊ฒ์ด orthogonal complement๋ค.
Theorem.
Each $\mathbf{x} \in \mathbb{R}^n$ can be uniquely represented as
\[\mathbf{x} = \mathbf{x}_{\mathcal{L}} + \mathbf{x}_{\mathcal{L^{\perp}}}\]where \(\mathbf{x}_{\mathcal{L}} \in \mathcal{L}\) and \(\mathbf{x}_{\mathcal{L^{\perp}}} \in \mathcal{L}^{\perp}\).
์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ ๋ฒกํฐ $\mathbf{x}_{\mathcal{L}}$๋ฅผ $\mathbf{x}$์ $\mathcal{L}$๋ก์ <orthogonal projection>์ด๋ผ๊ณ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ด <orthogonal projection>์ Linear mapping์ด๋ค. ๊ทธ๋์ ํ๋ ฌ์ ํํ๋ก ํํํ ์ ์๋ค!!
The map $\mathbf{x} \mapsto \mathbf{x}_{\mathcal{L}}$ is a linear mapping.
Theorem.
์ ๋ถ๋ฑ์์ ์๋ฏธ๋ $\mathcal{L}$ ์์ ๋ฒกํฐ์ $\mathbf{x}$ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ด ๋, orthogonal proj. $\mathbf{x}_{\mathcal{L}}$์ด ๊ฐ์ฅ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ฑ์์ ๋งํ๋ค. ๊ทธ๋ฆผ์ผ๋ก ํ์ธํ๋ฉด ์๋์ ๊ฐ๋ค.
Definition. idempotent or projection
$A \in \mathbb{R}^{n\times n}$ is called an <idempotent> or <projection> matrix if $A^2 = A$.
Theorem.
T.F.A.E.
(1) $A\mathbf{x}$ is the orthogonal projection of $\mathbf{x}$ onto $\mathcal{C}(A)$.
์ด ๋ช ์ ๋ $\mathbf{x}$์ $A$๋ฅผ ๊ณฑํ๋ ์ฐ์ฐ(๋งคํ) ์์ฒด๊ฐ $\{A\mathbf{x} : \mathbf{x} \in \mathbb{R}^n \}$์ธ ์งํฉ์ ์ ๋ํ๋๋ฐ, ์ด ์งํฉ์ด ๋ฐ๋ก $\mathcal{C}(A)$์ด๋ค.
(2) $A$ is a projection and $\mathcal{N}(A) \perp \mathcal{C}(A)$.
์ฆ, for every $\mathbf{x} \in \mathcal{N}(A)$, $\mathbf{y} \in \mathcal{C}(A)$, $\mathbf{x}^T \mathbf{y} = 0$.
(3) $A$ is symmetric and idempotent.
๊ทธ๋์ ๋ง์ฝ ์์ ๋ช ์ ์ค ํ๋๋ผ๋ ์ฑ๋ฆฝํ๋ค๋ฉด, $A$๋ <orthogonal projection matrix> onto $\mathcal{C}(A)$๊ฐ ๋๋ค.
Theorem.
Let $A \in \mathbb{R}^{n\times n}$ and symmetric. Then, T.F.A.E.
(1) $A^2 = A$
(2) All eigenvalues of $A$ are either 0 or 1.
(3) $\text{rank}(A) + \text{rank}(I_n - A) = n$
((1)$\implies$(2))๋ ์ฝ๊ฒ <spectral decomposition>์ ํ์ฉํ๋ฉด, ์ฝ๊ฒ ์ฆ๋ช ํ ์ ์๋ค.
Because $A$ is symmetric, $A = UDU^T$ by spectral theorem.
By statement (1), $A^2 = A$
\[A^2 = (UDU^T)(UDU^T) = UD^2U^T = UDU^T\]๋ฐ๋ผ์, $D^2 = D$. ์ด๊ฒ์ ๋ง์กฑํ๋ ค๋ฉด, $d_i^2 = d_i$๊ฐ ๋์ด์ผ ํ๋ค. ์ด๊ฒ์ $d_i = 0$ or $d_i = 1$์ผ ๋๋ง ๊ฐ๋ฅํ๋ค. $\blacksquare$
eigenvalue $d_i$๊ฐ 0 or 1์ด๋ผ๋ ์ฌ์ค์ proj. $A$๊ฐ $d_i = 1$์ธ ํน์ $u_i$ ๋ฒกํฐ๋ง ์ด๋ฆฌ๊ฒ ํ๋ ์ฐ์ฐ์์ ์ ์ ์๊ฒ ํด์ค๋ค.
((2)$\implies$(3))๋ ์ฆ๋ช ํด๋ณด์. ์ด๊ฑด rank๊ณผ eigenvalue ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํตํด ์ฝ๊ฒ ์ฆ๋ช ํ ์ ์๋ค.
rank๋ (# of non-zero eigenvalue)๋ก ์ ์๋๋ค. orthognoal proj์ธ $A$๋ eigvenvalue๊ฐ 0 ๋๋ 1์ด๋ฏ๋ก $d_i = 1$์ ๊ฐฏ์๋ฅผ ์ธ๋ฉด ๋๋ค.
$I_n - A$๋ฅผ ์ดํด๋ณด์. ์ด๊ฑด $A$์ $d_i$์ ๊ฐ์ ํ ๊ธ์์ผ์ค๋ค. ๋ฐ๋ผ์, $I_n - A$์ rank๋ $A$์ ๊ฒ๊ณผ complementํ๊ฒ ๋๋ค. $\text{rank}(I_n - A) = n - \text{rank}(A)$. $\blacksquare$
๋๋์ด ๋ง์ง๋ง Theorem์ด๋ค. ํ์ง๋ง, ์๋์ ๋ช ์ ๋ ์ด <ํต๊ณ์ ๋ฐ์ดํฐ๋ง์ด๋>์ด๋ผ๋ ๊ณผ๋ชฉ์์ <Regression>์ ๋ค๋ฃฐ ๋ ์ ๋ง์ ๋ง ๋ง์ด ์ฐ๊ฒ ๋๋ ์ ๋ฆฌ์ด๋ฏ๋ก, ์ ๋ง ์ค์ํ๋ค! ๐ฅ
Theorem.
Let $X = (\mathbf{x}_1, \dots, \mathbf{x}_p)$ be an $n\times p$ matrix with $\text{rank}(X) = p$3 and
\[H = X(X^TX)^{-1}X^T\]Then, $H$ is the orthogonal projection onto $C(X)$, that is
(1) $H^2 = H$
(2) $\mathcal(H) \perp \mathcal{N}(H)$
(3) $\mathcal{C}(H) = \mathcal{C}(X)$
์ด๋, $X$๋ก๋ถํฐ ์ ๋ํ matrix $H$๋ฅผ <hat matrix>๋ผ๊ณ ํ๋ค.