2021-1학기에 수강한 POSTECH 채민우 교수님의 “통계적 데이터 마이닝(IMEN472)” 수업에서 배운 것과 공부한 것을 정리한 지킬 블로그입니다. 개인적으로 본인이 처음 도전해보는 분야고 응용 수학의 수많은 테크닉들을 사용하기 때문에 수업을 따라가는게 쉽지는 않았습니다만, 본 수업을 통해서 데이터 사이언스에 대한 프론티어를 맛볼 수 있었습니다. 🤯

참고 교재


Supplementary

앞으로 이어지는 “통데마”의 실전을 마주하기 전에 “반드시” 알아야 하는 내용들입니다. 여기에 등장하는 모든 내용과 수학적 표현에 충분히 익숙해져야 합니다.

펼쳐보기

Linear Algebra

Multivariate Normal Distribution

Conditional Expectation


Introduction

  • Introduction to Regression & Classification
    • Least Squared Method
    • Nearest Neighbor Method
  • Curse of dimensionality

Linear Methods for Regression

  • Feature Selection
    • Best Subset Selection
    • Forward Stepwise Selection
    • Backward Stepwise Selection
    • Mallow’s $C_p$
    • AIC & BIC
    • Instability of Variable Selection
  • Shrinkage Method

  • Lasso Regression
  • Ridge Regression

Non-parametric Method


Boosting


Random Forest


Appendix


  1. 수업의 일부 토픽에서 CS229에서 배운 부분이 종종 등장했습니다. CS229에서 통계적 접근을 통해 고전적인 머신 러닝을 다루기 때문에 두 과목을 공부하는 데에 양방향으로 도움을 많이 받았습니다 😊