Seokyun Ha (aka. bluehorn07)

Seokyun Ha (aka. bluehorn07)

토스 플레이스에서 데이터 엔지니어로 일하고 있습니다. Kubernetes, Spark, Airflow와 그들의 생태계에서 Engineering Problem들을 해결하고 있습니다. 종종 오픈소스에도 기여하고 있습니다. 😁 커피챗 환영합니다. ☕️

R Tips & Tricks

이 글은 정리를 위해 개인적인 용도로 작성된 포스트입니다. 지적과 조언은 언제나 환영입니다 ㅎㅎ

April 7, 2021 2 minute read

이 글은 정리를 위해 개인적인 용도로 작성된 포스트입니다. 지적과 조언은 언제나 환영입니다 ㅎㅎ

Basics

<-와 =의 차이점
- 자니 님의 포스트
- 요약하면, <-나 =나 동일한 기능을 하지만, 암묵적으로 <-를 권장한다고 함. 그리고 <-는 할당 이후 변수를 반환하지만, =는 할당만 하고 변수를 반환하지 않음.
데이터프레임 파악
- names(data): 데이터프레임의 column 값들을 get
- dim(data): 데이터프레임의 차원을 리턴; [# rows] [# columns]
- table(data$y): 값의 분포를 테이블의 형태로 보여준다.
R 데이터 타입
- class(obj)로 데이터 타입 확인 가능!
- factor는 카테고리형 변수
- character는 문자형 변수 // factor랑 다름!

> table(vowel.train$y)

 1  2  3  4  5  6  7  8  9 10 11
48 48 48 48 48 48 48 48 48 48 48

R에서의 for문

> for(i in 1:9) {
+   print(2 * i)
+ }

predict()로 모델 evaluation
- lm()으로 모델을 만들었으면 predict()로 새로운 데이터를 넣어 Acc를 구한다.
- ‘더북(TheBook)’님의 포스트

model <- lm(dist ~ speed, cars.train)
predict(model, newdata=cars.test)

데이터프레임에서 X, y 분리

X <- subset(data, select=-Salary)
y <- subset(data, select=Salary)

이때, 대상이 되는 열에 대해 따옴표(““)를 붙이지 않아야 한다. 또한, subset 함수의 출력은 항상 DataFrame이다!

👉 ‘훈데이텀’님의 포스트

Regression

lm(formula, data, ...)

vowel.fit <- lm(y ~., vowel.train)

References

STHDA; Statistical Tools for High-throughput Data Analysis
- R을 사용한 여러 통계 접근을 친절하게 설명해줌.
RPubs
- R 생태계의 github 같은 느낌.
rdrr.io
- R package documentation
- 새로운 R 패키지를 익힐 때 유용!!

You may also enjoy

inode와 fd

June 23, 2026 18 minute read

나는 둘을 구분해서 차이를 설명할 수 있는가? 왜 스타락스에서 FD 지표를 노출 하는가?

XFS File System

June 14, 2026 10 minute read

왜 카프카 브로커, DB 같은 대규모 시스템들이 xfs를 파일 시스템으로 채택 했을까?

BST, B-Tree, B+Tree 구현

June 14, 2026 18 minute read

Parquet Variant에 대해 살펴보기

March 9, 2026 5 minute read