Sampling Distribution
โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ ์์ ์์ ๋ฐฐ์ด ๊ฒ๊ณผ ๊ณต๋ถํ ๊ฒ์ ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ฒ
์๋ฆฌ์ฆ: Sampling Distributions
Introduction
ํํต ์์ ์ ๋ฃ๋ ์ ์ฒด ํ์์ ๋์์ผ๋ก, ํํต ์์ ์ ์ ํธํ๋ ํ์์ ๋น์จ์ ๊ตฌํ๊ณ ์ ํ๋ค. ๊ทธ๋ฐ๋ฐ, ํํต ์์ ์ ๋ฃ๋ ํ์ ์๊ฐ ๋๋ฌด ๋ง์์ ์ ์ฒด๋ฅผ ์กฐ์ฌํ ์ ์๊ณ , ์ ์ฒด ์ค $n$๋ช ํ์์ ๋์์ผ๋ก ์ค๋ฌธ์กฐ์ฌ๋ฅผ ์ํํ๋ค๊ณ ํ์.
$X$๊ฐ โ$n$๋ช ์ ํ์ ์ค์ ํํต ์์ ์ ์ ํธํ๋ค๊ณ ์๋ตํ ํ์ ์โ๋ผ๋ RV๋ผ๋ฉด, $X$๋ HyperGeometric Distribution๋ฅผ ๋ฐ๋ฅผ ๊ฒ์ด๋ค. ๋ง์ฝ ์ ์ฒด ํ์ ์๊ฐ ์ถฉ~๋ถํ ํฌ๋ค๋ฉด, HyperGeometric ๋ถํฌ๋ฅผ Binomial ๋ถํฌ๋ก ๊ทผ์ฌํ ์๋ ์์ ๊ฒ์ด๋ค.
๊ฐ ํ์ $i$์ ์ ํธ๋ฅผ RV $X_i$๋ Binary ๊ฐ์ ๊ฐ์ง๋ค.
\[X_i = \begin{cases} 1 & i\text{-th student likes it!} \\ 0 & \text{else} \end{cases}\]๊ทธ๋ฆฌ๊ณ RV $X_1, \dots, X_n$๋ฅผ ์ ์ฒด๋ฅผ ์ข ํฉํ๋ฉด, ์๋ก์ด RV $\overline{X}$๋ฅผ ์ ๋ํ ์ ์๋ค.
\[\overline{X} := \frac{X_1 + \cdots X_n}{n}\]์ด๋ ๊ฒ ์ ๋ํ $\overline{X}$๋ฅผ <sample mean>์ด๋ผ๊ณ ํ๋ค!
์์ ์์๋ฅผ ์ข๋ ๊ตฌ์ฒดํ ํด์ ์๊ฐํด๋ณด์.
$n=100$, and 60 students said they like lecture. Then, $\overline{x} = \frac{60}{100} = 0.6$
์ด๋, ์ฐ๋ฆฌ๊ฐ <sample mean> $\overline{x}$์ ๋ํด ๋ ผํ๊ณ ์ ํ๋ ์ฃผ์ ๋ ๋ฐ๋ก
\[P(\left| \overline{X} - 0.6 \right| < \epsilon)\]์ ํ๋ฅ ์ ์ด๋ป๊ฒ ๊ตฌํ๋์ง์ ๋ํ ๊ฒ์ด๋ค. ์ด๊ฒ์ ๊ตฌํ๋ ์ด์ ๋
\[P(\left| \overline{X} - \mu_0 \right| < \epsilon)\]์ ํ๋ฅ ์ ๊ตฌํ์ฌ, ์ ์ํ $\mu_0$์ ์ฐ๋ฆฌ๊ฐ ์ป์ sample mean์ด ์ผ๋ง๋ ์ฐจ์ด ๋๋์ง๋ฅผ ํ์ธํ๊ณ , ์ด๊ฒ์ ํ์ฉํด $\mu = \mu_0$๋ผ๋ ๊ฐ์ค(Hypothesis)๋ฅผ ๊ฒ์ (Test)ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋ด์ฉ์ ๋ค์ <๊ฐ์ค ๊ฒ์ ; Hypothesis Test> ๋ถ๋ถ์์ ์์ธํ ๋ค๋ฃฌ๋ค.
$P(\left| \overline{X} - \mu_0 \right| < \epsilon)$, ์ด๊ฒ์ ๊ตฌํ๊ธฐ ์ํด์๋ $\overline{X}$์ ๋ํ ๋ถํฌ๋ฅผ ์์์ผ ํ๋ฉฐ, ์ฐ๋ฆฌ๋ ์ด๊ฒ์ <sampling distribution; ํ๋ณธ ๋ถํฌ>๋ผ๊ณ ํ๋ค! ํ๋ณธ ๋ถํฌ์ ๋ํ ์ ์๋ ์ํฐํด์ ๋งจ ๋ง์ง๋ง์ ์ ๋ฆฌํ์๋ค.
Population and Sample
Definition. population; ๋ชจ์ง๋จ
A <population> is the totality of observations.
Definition. sample; ํ๋ณธ
A <sample> is a subset of population.
Definition. random sample
RVs $X_1, \dots, X_n$ are said to be a <random sample> of size $n$, if they are independent and identically distributed as pmf or pdf $f(x)$.
That is,
\[f_{(X_1, \dots, X_n)} (x_1, \dots, x_n) = f_{X_1} (x_1) \cdots f_{X_n} (x_n)\]The observed values $x_1, \dots, x_n$ of $X_1, \dots, X_n$ are called <sample points> or <observations>.
Statistics
Definition. Statistics; ํต๊ณ๋
A <Statistics; ํต๊ณ๋> is a function of a random sample $X_1, \dots, X_n$, not depending on unknown parameters.
์ฆ, $f(X_1, \dots, X_n)$ ํํ์ ํจ์๋ฅผ <Statistics>๋ผ๊ณ ํ๋ค. ์ด <Statistics>๋ RV ์งํฉ์ ๋ํ๊ฐ ์ญํ ์ ํ๋ค.
Example.
Supp. $X_1, \dots, X_n$ is a random sample from $N(\mu, 1)$.
Then,
1. $\dfrac{X_1 + \cdots + X_n}{n}$ is a Statistics!
2. $\max \{ X_1, \dots, X_n \}$ is a Statistics!
3. $\dfrac{X_1 + \cdots + X_n + \mu}{n}$ is not a Statistics!
์ฐ๋ฆฌ๋ ๊ฐ๋ณ ์ํ๊ฐ $X_i = x_i$๊ฐ ์๋๋ผ, ํต๊ณ๋ <Statistics>์ ํตํด์๋ง ๋ชจ์ง๋จ์ ๋ํ ๊ฐ์ข ์ฑ์ง์ ์ถ๋ก ํ ์ ์๋ค.
Location Measures of a Sample
Let $X_1, \dots, X_n$ be a random sample.
Definition. sample mean
$\overline{X} = \dfrac{X_1 + \cdots + X_n}{n}$ is called a <sample mean>.
(1) $\overline{X}$ is also a random variable!
(2) If $E(X_1) = \mu$ and $\text{Var}(X_1) = \sigma^2$, then $E(\overline{X}) = \dfrac{n\mu}{n} = \mu$ and $\text{Var}(\overline{X}) = \dfrac{\sigma^2}{n}$
(3) $\overline{X}$ can be sensitive to outliers.
Definition. sample median
Sample์์์ ์ค๊ฐ๊ฐ.
Definition. sample mode
Sample์์์ ์ต๋น๊ฐ.
Variability Measures of a Sample
Definition. sample variance
Let $X_1, \dots, X_n$ be a random sample with $E[X_i] = \mu$ and $\text{Var}(X_i) = \sigma^2$.
\[S^2 := \frac{1}{n-1} \sum^n_{i=1} \left( X_i - \overline{X}\right)^2\]Why divide by (n-1)?
Q. Why $(n-1)$ in the bottom??
A. ์๋ํ๋ฉด, $(n-1)$๋ก ๋๋ ์ค์ผ ํ๋ณธ ๋ถ์ฐ์ ํ๊ท $E[S^2]$์ด $\sigma^2$์ด ๋๊ธฐ ๋๋ฌธ!!!
Proof.
w.l.o.g. we can assume that $E[X_i] = 0$. (๊ทธ๋ฅ ํธ์๋ฅผ ์ํด $X_i$๋ฅผ ์ ๋นํ ํ์คํ ํ ๊ฒ์ด๋ค.)
\[\begin{aligned} S^2 &= \frac{1}{n-1} \sum^n_{i=1} \left( X_i^2 - 2 X_i \overline{X} + (\overline{X})^2 \right) \\ &= \frac{1}{n-1} \left\{ \sum^n_{i=1} X_i^2 - 2 \overline{X} \sum^n_{i=1} X_i + n (\overline{X})^2 \right\} \\ \end{aligned}\]์ด๋, $\displaystyle\sum^n_{i=1} X_i$๋ ๊ทธ ์ ์์ ์ํด $n\overline{X}$๊ฐ ๋๋ค.
\[\begin{aligned} S^2 &= \frac{1}{n-1} \left\{ \sum^n_{i=1} X_i^2 - 2 \overline{X} \cdot n\overline{X} + n (\overline{X})^2 \right\} \\ &= \frac{1}{n-1} \left\{ \sum^n_{i=1} X_i^2 - n (\overline{X})^2 \right\} \\ \end{aligned}\]์ด์ ์์ ์์ ์๋ณ์ ํ๊ท ์ ์ทจํด๋ณด์.
\[\begin{aligned} E[S^2] &= \frac{1}{n-1} \left\{ \sum^n_{i=1} E[X_i^2] - n \cdot E\left[(\overline{X})^2\right] \right\} \\ &= \frac{1}{n-1} \left\{ \sum^n_{i=1} (\sigma^2 + \cancelto{0}{E[X_i]^2}) - n \cdot E\left[(\overline{X})^2\right] \right\} \\ &= \frac{1}{n-1} \left\{ n \cdot \sigma^2 - n \cdot \frac{1}{n^2} \cdot E \left[(X_1 + \cdots + X_n)^2 \right] \right\} \\ &= \frac{1}{n-1} \left\{ n \cdot \sigma^2 - \frac{1}{n} \cdot \left( n \cdot E[X_1^2] + E[X_i X_j] + \cdots \right) \right\} \\ \end{aligned}\]์ด๋, $X_i$๋ ์๋ก ๋ ๋ฆฝ์ด๋ฏ๋ก $E[X_i X_j] = E[X_i] E[X_j] = 0 \cdot 0 = 0$์ด ๋ฉ๋๋ค.
\[\begin{aligned} E[S^2] &= \frac{1}{n-1} \left\{ n \cdot \sigma^2 - \frac{1}{n} \cdot \left( n \cdot E[X_1^2] + \cancelto{0}{E[X_i X_j]} + \cdots \right) \right\} \\ &= \frac{1}{n-1} \left\{ n \cdot \sigma^2 - \frac{1}{\cancel{n}} \cdot \cancel{n} \cdot \cancelto{\sigma^2}{E[X_1^2]} \right\} \\ &= \frac{1}{n-1} \left\{ n \cdot \sigma^2 - \sigma^2 \right\} \\ &= \sigma^2 \end{aligned}\]$\blacksquare$
Definition. sample standard deviation
Definition. range
Sampling Distribution
Definition. sampling distribution
The probability distribution of a sample Statistics is called a <sampling distribution>.
ex) distribution of sample mean, distribution of sample variance, โฆ
์ด๋, ํ๋ณธ ํต๊ณ๋(sample Statistics)๋ sample mean, sample variance์ ๊ฐ์ด ํ๋ณธ์ ํน์ฑ์ ๋ํ๋ด๋ ๋ํ๊ฐ์ด๋ค. ์์ธํ ๋ด์ฉ์ ์๋์ ๋ ํฌ์คํธ๋ฅผ ์ฐธ๊ณ ํ์!
์งํํ๋ ํ๋ก์ ํธ ๋ ๊ฐ์ง์ ๋ํ์ฌ ํ์ฉ ๊ธฐ์ , ๋ณธ์ธ์ ์ญํ , ์งํ ๋ฐฉ์, ๊ฒฐ๊ณผ๋ฅผ ํฌํจํ์ฌ ๊ตฌ์ฒด์ ์ผ๋ก ์ค๋ช ํด ์ฃผ์ธ์.
[Events ํ์ดํ๋ผ์ธ ์ด์ ๋ฐ ๊ฐ์ ] ํ๋ฃจ 4์ต ๊ฑด, 500GB์ ์ด๋ฒคํธ ํธ๋ํฝ์ ์ ์ค ์์ด ์ ์ฌํ ์ ์๋ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํ๊ณ ์ด์ํ ๊ฒฝํ์ด ์์ต๋๋ค. ์ด๊ธฐ์๋ ํ์ดํ๋ผ์ธ ์ ์ง๋ณด์ ๋ด๋น์ผ๋ก ์์ํ์ง๋ง, ํ์ฌ๋ Data Platform ์ ๋ ๋ฆฌ๋๋ก์ ์ด๋ฒคํธ ํ์ดํ๋ผ์ธ์ ํฌํจํด ๋ฐ์ดํฐํ์ AWS ๋ฐ Kubernetes ์ธํ๋ผ ์ ๋ฐ์ ๋ฐฉํฅ์ฑ๊ณผ ๊ฐ์ ์ ์ฃผ๋ํ๊ณ ์์ต๋๋ค.
์ด๋ฒคํธ ํ์ดํ๋ผ์ธ์ ์ธ๊ฒ์์์ ๋ฐ์ํ๋ ๋ชจ๋ ์ด๋ฒคํธ๋ฅผ ๋ก๊น ํ๊ณ ์ด๋ฅผ ๋ฐ์ดํฐ ๋ ์ดํฌ์ ์ ์ฌํ๋ end-to-end ๊ตฌ์กฐ๋ก, ๊ฐ์ฅ ๋จผ์ ์ด๋ฒคํธ๋ฅผ ์ฒ๋ฆฌํ๋ Events Producer๋ Istio์ Knative ๊ธฐ๋ฐ์ Serverless Application์ผ๋ก ๊ตฌ์ถ๋์ด ์์ต๋๋ค. ํธ๋ํฝ ๋ณํ์ ๋ฐ๋ผ ์๋ ์ค์ผ์ผ๋ง์ด ๊ฐ๋ฅํ๋๋ก ์ค๊ณ๋์ด ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋๋ ํธ๋ํฝ์๋ ์ ์ค ์์ด ๋ฐ์ดํฐ๋ฅผ ์์ ์ ์ผ๋ก ์์งํ ์ ์์ต๋๋ค. ์ด๋ฒคํธ๋ Kafka ํ ํฝ์ ์ ์ฌ๋๋๋ฐ, ์ด๊ธฐ์๋ ๋จ์ผ ํ ํฝ์ ๋ชจ๋ ์ด๋ฒคํธ๋ฅผ ์ ์ฅํ๋ ๋ฐฉ์์ด์์ผ๋, ์ด๋ก ์ธํด Sink Connector์ Lag ๋ชจ๋ํฐ๋ง์ด ์ด๋ ต๊ณ , Events ETL ๊ตฌ์ฑ์ ๋ธ๋ก์ปค๊ฐ ๋ฐ์ํ๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด๋ฒคํธ ์ ํ๋ณ ์ ์ฉ Kafka ํ ํฝ์ ๋ถ๋ฆฌํ๋ ๋ก์ง์ ๊ฐ๋ฐํ์ฌ ๋จ์ผ ํ ํฝ ๋ถํ๋ฅผ 50% ์ด์ ๋ถ์ฐํ์๊ณ , Flink ๊ธฐ๋ฐ์ Events ETL ๊ฐ๋ฐ์ด ๊ฐ๋ฅํ๋๋ก ํ๊ฒฝ์ ์กฐ์ฑํ์์ต๋๋ค.
๋ํ, Prometheus๋ฅผ ์ฐ๋ํ์ฌ ํ์ดํ๋ผ์ธ ์ฅ์ ๋ฐ์ ์ ์ํฉ๋ณ ์๋์ด ์ค๋๋ก ์ค์ ํ๊ณ , ๋ถ๋น ๋๋ฏธ ๋ฐ์ดํฐ๋ฅผ ์๋ ์ ์กํ์ฌ ํ์ดํ๋ผ์ธ์ ์ํ๋ฅผ ์ง์์ ์ผ๋ก ์ฒดํฌํ ์ ์๋๋ก ๊ฐ์ ํ์์ต๋๋ค. ๋ ๋์๊ฐ, Custom Prometheus ์งํ๋ฅผ ์ ์ํ์ฌ Producer๋ณ Success/Fail/DLQ ๋ฉ์์ง์ ์ถ์ด๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ชจ๋ํฐ๋งํ ์ ์๋๋ก ๊ตฌ์ฑํจ์ผ๋ก์จ ์ ๊ดํ์ด ์ฅ์ ์ํฉ์ ๋ณด๋ค ๋ช ํํ๊ฒ ํ์ ํ๊ณ ๋์ํ ์ ์๋๋ก ์ง์ํ์์ต๋๋ค.
๋ฐฐํฌ ํ๋ก์ธ์ค ๋ํ ๊ธฐ์กด Pulumi ๊ธฐ๋ฐ IaC ๋ฐฉ์์ ์ ์งํ๋, PR ๋ฆฌ๋ทฐ ๊ณผ์ ์์ ๋ถํ์ํ ํด๋ฆญ์ ์ฌ๋ฌ ๋ฒ ์ํํด์ผ ํ๋ ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌํ์๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Atlantis ๊ธฐ๋ฅ์ ๋ชจ์ฌํ PR Comment ๊ธฐ๋ฐ ์๋ํ๋ Github Workflow๋ฅผ ๊ฐ๋ฐํ์ฌ ๋ฐฐํฌ ํ๋ก์ธ์ค๋ฅผ ๋จ์ํํ์ต๋๋ค.
์ด๋ฒคํธ ์์ฒ ๋ฐ์ดํฐ๋ ๊ฒ์ ์ด์๊ณผ ๋ถ์์ ์ค์ํ ์ญํ ์ ํ๊ธฐ ๋๋ฌธ์, ํ์ดํ๋ผ์ธ์ ์์ ์ ์ธ ์ด์๊ณผ ์ฅ์ ๋์์ด ํ์์ ์ด์์ต๋๋ค. ์ด๋ฅผ ์ํด ์ด์ดํ ๋ชจ๋ํฐ๋ง ์ฒด๊ณ๋ฅผ ๊ตฌ์ถํ๊ณ , ์ฌ์ด ๋ฐฐํฌ ํ๋ก์ธ์ค๋ฅผ ๋ง๋ จํ์์ผ๋ฉฐ, ํ์๋ค์๊ฒ Istio ๋ฐ Kubernetes ์ธํ๋ผ์ ๋ํ ์ธ์ ์ ์งํํ์ฌ ํ๋ ฅํ์ฌ ์์ ํ๊ณ ๋น ๋ฅด๊ฒ ๋ฐฐํฌํ ์ ์๋ ํ๊ฒฝ์ ์กฐ์ฑํ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, Kafka ๋ถํ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ถ์ฐ์ํค๋ฉฐ Sink Connector์ Lag ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์๊ณ , ์ค์๊ฐ ๋ชจ๋ํฐ๋ง ๋ฐ ์๋ํ๋ ์ํ ์ฒดํฌ ์์คํ ์ ํตํด ์ฅ์ ๋์ ์๋๋ฅผ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์์ต๋๋ค.
[๋ฉํ์คํ ์ด ์ค๊ณ ๋ฐ ๋ง์ด๊ทธ๋ ์ด์ ] Hive Metastore์์ Databricks Unity Catalog๋ก 1๋ง ๊ฐ ์ด์์ ํ ์ด๋ธ๊ณผ 1์ฒ ๊ฐ ์ด์์ ์ํฌํ๋ก์ฐ๋ฅผ ๋ง์ด๊ทธ๋ ์ด์ ํ๋ฉฐ ๋ฐ์ดํฐ ๋ ์ดํฌํ์ฐ์ค ์ฑ๋ฅ์ ์ต์ ํํ๊ณ ํ์ ์์ฐ์ฑ์ ํฅ์์ํจ ๊ฒฝํ์ด ์์ต๋๋ค. ๋ง์ด๊ทธ๋ ์ด์ TF ํ์ฅ์ผ๋ก์ 2024๋ 3์๋ถํฐ 8์๊น์ง ํ๋ก์ ํธ๋ฅผ ์ฃผ๋ํ๋ฉฐ ์ ์ฒด ๊ณผ์ ์ค๊ณ์ ๋๋ฒ๊น ์ ๋ด๋นํ์ต๋๋ค.
๋ง์ด๊ทธ๋ ์ด์ ์ ์งํํ๊ธฐ์ ์์, ํ๊ฐ ๋๊ตฌ ๋ฐ ์ปค์คํ ์ฟผ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ ๊ธฐ์กด Hive Metastore์ Unity Catalog ๊ฐ์ ํธํ์ฑ์ ๋ถ์ํ์๊ณ , ์๋ก์ด Catalog ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ์ฌ ๋ฐ์ดํฐ ์ ๊ทผ์ฑ๊ณผ ๊ด๋ฆฌ ํจ์จ์ฑ์ ๊ฐ์ ํ์์ต๋๋ค. ๋ฐ์ดํฐํ์ 2018๋ ๋ถํฐ Spark๊ณผ Databricks๋ฅผ ์ฌ์ฉํด์์ผ๋ฉฐ, ๊ทธ๋์ ์์ธ Notebook, Workflow, ACL ๋ฑ์ ๋ ๊ฑฐ์๋ฅผ ์ ๋ฆฌํ๊ณ ์ต์ ํ๊ฒฝ์ ๋ง๊ฒ ์ต์ ํํ๋ ๊ณผ์ ์ด ํ์ํ์ต๋๋ค. GitOps ๊ธฐ๋ฐ์ผ๋ก ๊ด๋ฆฌ๋๋ Notebook์์๋ Spark Context๋ฅผ ํ์ฉํ ๋ ๊ฑฐ์ API ๋ฐ Databricks Legacy API๋ฅผ ์ต์ API๋ก ์ ํํ์๊ณ , Spark UDF๋ฅผ ์ฌ์ค๊ณํ๊ณ Partitioned ๋ฉํ๋ฐ์ดํฐ ๊ตฌ์ฑ์ ๋ณ๊ฒฝํ์ฌ Shared Cluster์์ ๋ฐ์ํ๋ Spark Session ์ถฉ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์์ต๋๋ค.
์ฟผ๋ฆฌ ์ฑ๋ฅ์ ์ต์ ํํ๊ธฐ ์ํด Parquet์์ Delta Lake๋ก ๋ฐ์ดํฐ ํฌ๋งท์ ๋ณ๊ฒฝํ๊ณ ์ฆ๋ถ ์ ๋ฐ์ดํธ ๋ฐฉ์์ ๋์ ํ์ฌ S3 ์์ฒญ์ ๊ธฐ์กด์ 10% ์์ค์ผ๋ก ์ค์์ต๋๋ค. ์ด ๊ณผ์ ์์ ํ์ดํ๋ผ์ธ ์ฅ์ ๋ ์ฌ๋ฌ ์ฐจ๋ก ๋ฐ์ํ์๊ณ , ์ ๊ด ๋ถ์์์ ๋ง์ด๊ทธ๋ ์ด์ ์ผ๋ก ์ธํ ๋ถํธ์ ํธ์ํ๊ธฐ๋ ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ง์ด๊ทธ๋ ์ด์ ์ ํ์ ์ฑ๋ฅ ๋น๊ต ์๋ฃ๋ฅผ ์ ๊ณตํ๊ณ , Auditing ๋ฐ Lineage ๊ธฐ๋ฅ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ ํ์ฉ๋๋ฅผ ๋์ผ ์ ์๋ค๋ ์ ์ ๊ฐ์กฐํ๋ฉฐ ์ ๊ทน์ ์ผ๋ก ์ปค๋ฎค๋์ผ์ด์ ์ ์งํํ์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ชจ๋ ๋ฉํ๋ฐ์ดํฐ๋ฅผ Unity Catalog ํ๊ฒฝ์์ ์ผ์ํํ์ฌ ๊ด๋ฆฌํ ์ ์๊ฒ ๋์์ผ๋ฉฐ, ์ฟผ๋ฆฌ ์๋ ๊ฐ์ ๋ฐ ๋ฆฌ์์ค ์ ๊ฐ ํจ๊ณผ๋ฅผ ๊ฑฐ๋ ์ ์์์ต๋๋ค. ๋ํ, LLM Agent ๊ฐ๋ฐ, Audit Log ๊ธฐ๋ฐ ๋ชจ๋ํฐ๋ง ๋ฑ ์๋ก์ด ๋ฐ์ดํฐ ํ์ฉ ์์ญ์ ๋์ ํ ์ ์๋ ๊ธฐ๋ฐ์ด ๋ง๋ จ๋์์ต๋๋ค. ํ๋ก์ ํธ ๊ณผ์ ์์ ๋ฐ๋ณต์ ์ธ ์์ ๊ณผ ์ฅ์ ๋์์ผ๋ก ์ธํ ๋ถ๋ด์ด ์ปธ์ง๋ง, ์ด๋ฅผ ํตํด Spark์ ๋ํ ๊น์ ์ดํด์ ์ฑ๋ฅ ์ต์ ํ ๋ฐ ์ฅ์ ๋์ ์ญ๋์ ํ๋ณดํ ์ ์์์ต๋๋ค.
๊ธฐ์ต์ ๋จ๋ ํธ๋ฌ๋ธ์ํ ๊ฒฝํ์ ๊ฐ๋ฅํ ์์ธํ๊ฒ ์ค๋ช ํด ์ฃผ์ธ์.
Datahub๋ฅผ ํตํ ์ฌ๋ด Data Discovery Platform(DDP) ๊ตฌ์ถ์ด ๊ฐ์ฅ ๊ธฐ์ต์ ๋จ์ต๋๋ค. ๋ฒ ์ด๊ธ์ฝ๋์์ Data Scientist๋ก ๊ทผ๋ฌดํ ๋, ์ ๊ด ๋ถ์๋ก๋ถํฐ ํ ์ด๋ธ๊ณผ ์ปฌ๋ผ์ ๋ํ ๋ฉํ์ ๋ณด์ ๋ฐ์ดํฐ์ถ์ถ์ ๋ํ ์์ฒญ์ด ๋น๋ฒ ํ์ต๋๋ค. ์ด๋ฅผ ํดํ ์ํด ๋น๊ฐ๋ฐ ์ง๊ตฐ์ ๋์์ผ๋ก โQuery101โ ์ธ์ ์ ์งํํ๋ฉฐ ๋ฐ์ดํฐ ์ถ์ถ์ ๋ํ ๋ฐฉ๋ฒ๊ณผ Superset, Admunsen, ์ธํ์ฐ์ค ์คํค๋ง ํ์ด์ง ๋ฑ ๋๊ตฌ๋ฅผ ์๊ฐํ์ง๋ง, ์ฌ์ ํ ๋น๊ฐ๋ฐํ์ด ์ง์ ๋ฐ์ดํฐ ์ถ์ถํ๋ ๊ฒ์ ์ด๋ ค์ด ์ผ์ด์์ต๋๋ค.
Data Engineer๋ก ๋ถ์๋ฅผ ์ด๋ํ ํ์๋ ๊ฐ์ ๋ฌธ์ ๊ฐ ์ง์๋์๊ณ , ์ด์ ์ฒซ ๋ฒ์งธ ํ๋ก์ ํธ๋ก ๊ธฐ์กด Amundsen์ ๋์ฒดํ ์๋ก์ด Data Discovery Platform(DDP) ๊ตฌ์ถ์ ์งํํ๊ฒ ๋์์ต๋๋ค. ์คํ์์ค์ธ Datahub๋ฅผ ํ์ฉํ์ฌ ๋ฐ์ดํฐ ๊ฒ์๊ณผ ๋ฉํ๋ฐ์ดํฐ ๊ด๋ฆฌ๋ฅผ ๋ณด๋ค ์ฒด๊ณ์ ์ผ๋ก ์ด์ํ๊ณ ์ ํ์ผ๋ฉฐ, ์ฃผ์ ๊ณผ์ ๋ก ์ํฌ๋ก๋ ๋ฐฐํฌ ๋ฐ ๋ฉํ๋ฐ์ดํฐ ๋ฐ์ ์๋ํ๋ฅผ ์ค์ ํ์์ต๋๋ค.
์ด๊ธฐ ์ํฌ๋ก๋ ๋ฐฐํฌ ๊ณผ์ ์์ ๊ฐ๋ฐ์ฉ ํด๋ฌ์คํฐ์์ ์ต๋ช ์ ์ฌ์ฉ์๊ฐ Admin ๊ณ์ ์ ์์๋ด๋ ๋ณด์ ์ด์๊ฐ ๋ฐ์ํ์ต๋๋ค. ๋คํํ ์ด์ ํ๊ฒฝ๊ณผ ์ฐ๊ฒฐ๋์ง ์์ ๊ฐ๋ฐ ํด๋ฌ์คํฐ์๊ธฐ์ ์ฆ์ ๋น๋ฐ๋ฒํธ๋ฅผ ๋ณ๊ฒฝํ์ฌ ๋์ํ ์ ์์์ต๋๋ค. ๋๋ฒ๊น ์ ์งํํ ๊ฒฐ๊ณผ, Datahub์ Helm Chart์์ Admin ๊ณ์ ์ ๋น๋ฐ๋ฒํธ๊ฐ ๊ณ ์ ๊ฐ์ผ๋ก ์ค์ ๋์ด ์๋ค๋ ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด ๋ฌธ์ ๋ ์ ๋ฟ๋ง ์๋๋ผ Datahub๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋ ์ ์ ๋ค์ด ๊ฒช์ ์ ์๋ ๋ณด์ ์ทจ์ฝ์ ์ด๋ผ ํ๋จํ๊ณ , ์ฆ์ GitHub์ Issue๋ฅผ ์์ฑํ ํ ์ง์ PR์ ์์ฑํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค. ํด๋น ๊ฐ์ ์ฌํญ์ Datahub ํ๋ก์ ํธ์ ๋ฐ์๋์๊ณ , ์ด๋ฅผ ํตํด ๋๊ท๋ชจ ์คํ์์ค์ ๋ํ ์ปจํธ๋ฆฌ๋ทฐ์ ์ ์ฒ์์ผ๋ก ๊ฒฝํํ ์ ์์์ต๋๋ค.
๋ฉํ๋ฐ์ดํฐ ๋ฐ์ ์๋ํ ๊ณผ์ ์์๋ Databricks ํ ์ด๋ธ ๋ชฉ๋ก๊ณผ ๋ฉํ๋ฐ์ดํฐ๋ ์ ์์ ์ผ๋ก ์์ง๋์ง๋ง, ํ ์ด๋ธ ๊ฐ ์์กด์ฑ์ด ๋ณด์ด์ง ์๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ETL ๊ณผ์ ์์ ํ ์ด๋ธ ๊ฐ ๊ด๊ณ๋ฅผ ํ์ ํ๋ ๊ฒ์ด ์ค์ํ๋ฐ, ์ด๋ฅผ ํด๊ฒฐํ์ง ์์ผ๋ฉด ๋ฐ์ดํฐ ํ๋ฆ์ ์ถ์ ํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ์ด์ Spark Query Plan์ ํ์ฑํ์ฌ ํ ์ด๋ธ ๊ฐ์ ์์กด์ฑ์ ๋ณ๋๋ก ์ ์ฅํ๊ณ , ์ด๋ฅผ ๋ฉํ๋ฐ์ดํฐ ํ๋ซํผ์ ๋ฐ์ํ๋ ๋ฐฉ์์ ๋์ ํ์ต๋๋ค. ์ด ๊ฐ์ ์ ํตํด ํ ์ด๋ธ ๊ฐ ๋ฆฌ๋์ง๋ฅผ ์๊ฐ์ ์ผ๋ก ํ์ธํ ์ ์๊ฒ ๋์๊ณ , ์ฅ์ ๋ฐ์ ์ ํ์๋ค์ด ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐฑํ์ ๊ณํํ๊ณ ์คํํ ์ ์๋๋ก ์ง์ํ์์ต๋๋ค. ์ถ๊ฐ์ ์ผ๋ก Airflow-Datahub ์ฐ๋์ ๊ตฌํํ์ฌ Databricks ํ ์ด๋ธ๊ณผ Airflow Task ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ฐ๊ฒฐํจ์ผ๋ก์จ, ๋ฐ์ดํฐ ๋ฐ ์ํฌํ๋ก์ฐ ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ํ๋์ ํ์ ํ ์ ์๋ ๊ธฐ๋ฅ์ ํ์ฅํ์์ต๋๋ค.
ํ๋ก์ ํธ๋ฅผ ํตํด ๋ฐ์ดํฐํ๋ฟ๋ง ์๋๋ผ ๋น๊ฐ๋ฐ ์ง๊ตฐ๊น์ง ํฌํจํ ์ ์ฌ์ ์ธ ๋ฐ์ดํฐ ๊ฐ์์ฑ์ ํฅ์์ํฌ ์ ์์์ต๋๋ค. ๋ํ, ๊ธฐ์ ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ณผ์ ์์ ๋ณด์ ๊ฐ์ , ์คํ์์ค ๊ธฐ์ฌ, ๋ฐ์ดํฐ ์์ง๋์ด๋ง ์ญ๋์ ํค์ธ ์ ์์๋ ์ ์ด ํฐ ์๋ฏธ๊ฐ ์์์ต๋๋ค.