Statistical Data Mining
2021-1학기에 수강한 POSTECH 채민우 교수님의 “통계적 데이터 마이닝(IMEN472)” 수업에서 배운 것과 공부한 것을 정리한 지킬 블로그입니다. 개인적으로 본인이 처음 도전해보는 분야고 응용 수학의 수많은 테크닉들을 사용하기 때문에 수업을 따라가는게 쉽지는 않았습니다만, 본 수업을 통해서 데이터 사이언스에 대한 프론티어를 맛볼 수 있었습니다. 🤯
참고 교재
- 『The Elements of Statistical Learning』 Trevor Hastie · Robert Tibshirani · Jerome Friedman, 2nd ed.
- 『An Introduction to Statistical Learning』 Gareth James · Daniela Witten · Trevor Hastie · Robert Tibshirani, 1st ed.
- CS229: Machine Learning, Andrew Ng, Stanford Univ. 1
Supplementary
앞으로 이어지는 “통데마”의 실전을 마주하기 전에 “반드시” 알아야 하는 내용들입니다. 여기에 등장하는 모든 내용과 수학적 표현에 충분히 익숙해져야 합니다.
펼쳐보기
Linear Algebra
- Basic Linear Algebra
- Column space & Row space & Null space
- Fundamental Theorem of Linear Algebra
- Eigen value & Eigen vector
- Vector Calculus & Matrix Calculus
- Spectral Decomposition & Singular Value Decomposition
- Nonnegative Definite & Positive Definite Matrix
- Orthogonal Projection
Multivariate Normal Distribution
Conditional Expectation
Introduction
- Introduction to Regression & Classification
- Least Squared Method
- Nearest Neighbor Method
- Curse of dimensionality
Linear Methods for Regression
- Feature Selection
- Best Subset Selection
- Forward Stepwise Selection
- Backward Stepwise Selection
- Mallow’s $C_p$
- AIC & BIC
- Instability of Variable Selection
-
Shrinkage Method
- Lasso Regression
- Ridge Regression
Non-parametric Method
- Non-parametric Linear Regression
- Polynomial Regression
- Local Polynomical Regression
- Regression Spline 🔥
- Natural Cubic Spline
- power basis function
- Smoothing Splines
- knot selection
- Non-parametric Logistic Regression
- Multi-dimensional Splines
- Polynomial Regression
- KNN Method
- Additive Model
- Backfitting Algorithm
- GAM; Generalized Additive Models 🔥
- MARS; Multivariate Adaptive Regression Spline 🔥
Boosting
- Introduction to Boosting
- AdaBoost
- Gradient Boosting
- XGBoost
Random Forest
Appendix
-
수업의 일부 토픽에서 CS229에서 배운 부분이 종종 등장했습니다. CS229에서 통계적 접근을 통해 고전적인 머신 러닝을 다루기 때문에 두 과목을 공부하는 데에 양방향으로 도움을 많이 받았습니다 😊 ↩