이 글은 정리λ₯Ό μœ„ν•΄ 개인적인 μš©λ„λ‘œ μž‘μ„±λœ ν¬μŠ€νŠΈμž…λ‹ˆλ‹€. 지적과 쑰언은 μ–Έμ œλ‚˜ ν™˜μ˜μž…λ‹ˆλ‹€ γ…Žγ…Ž

3 minute read

이 글은 정리λ₯Ό μœ„ν•΄ 개인적인 μš©λ„λ‘œ μž‘μ„±λœ ν¬μŠ€νŠΈμž…λ‹ˆλ‹€. 지적과 쑰언은 μ–Έμ œλ‚˜ ν™˜μ˜μž…λ‹ˆλ‹€ γ…Žγ…Ž


이번 학기에 λ“£κ²Œ 된 <톡계적 데이터 λ§ˆμ΄λ‹> μˆ˜μ—…μ—μ„œ R 언어에 λŒ€ν•œ μ—­λŸ‰μ„ μš”κ΅¬ν•˜μ—¬ ν•œλ²ˆ κ³΅λΆ€ν•΄λ³΄κ²Œ λ˜μ—ˆλ‹€. πŸ˜† 사싀 파이썬의 pandasλ₯Ό 주둜 μ“°κΈ΄ ν•˜λŠ”λ°, R도 μ–Έμ  κ°€ 도움이 λ˜κ² μ§€β€¦??

R-studio μ„€μΉ˜

μΉœκ΅¬λ‘œλΆ€ν„° Docker의 미담을 λ“£κ³ , Docker둜 R을 써볼 수 μžˆμ§€ μ•Šμ„κΉŒ ν•˜λŠ” ν˜ΈκΈ°μ‹¬μ΄ 생겼닀. 🀩 μ°Ύμ•„λ³΄λ‹ˆ R의 ꡬ동 ν”„λ‘œκ·Έλž¨μΈ R-studioλ₯Ό μ •λ§λ‘œ Dockerμ—μ„œ 돌릴 수 μžˆμ–΄μ„œ R-studioλ₯Ό λ„μ»€λ‘œ μ„€μΉ˜ν•΄ μ‚¬μš©ν•˜κ³  μžˆλ‹€. μ„€μΉ˜λŠ” μ•„λž˜μ˜ 포슀트λ₯Ό μ°Έκ³ ν–ˆλ‹€.

πŸ‘‰ Docker둜 RStudio Server ν™˜κ²½ μ„€μΉ˜

λ„μ»€λ‘œ R-studioλ₯Ό 돌린 선택은 정말 λŒ€λ§Œμ‘±μ΄λ‹€!! 도컀, μ•žμœΌλ‘œλ„ 자주 μ‚¬μš©ν•  것 κ°™λ‹€ γ…Žγ…Ž 😘

(p.s. μœ„ 포슀트의 λͺ…λ Ήμ–΄μ—μ„œ -d둜 데λͺ¬ μ˜΅μ…˜μ„ μ€˜μ•Ό, ν”„λ‘¬ν”„νŠΈκ°€ μ’…λ£Œλ˜μ–΄λ„ λ‚˜μ€‘μ— μž¬μ‹œμž‘ ν•  수 μžˆλ‹€!)

R을 λ°°μ›Œλ³΄μž!

κ²½ν¬λŒ€ 이상쀀 κ΅μˆ˜λ‹˜μ˜ 유튜브 κ°•μ’Œμ„ 보고 R μ–Έμ–΄λ₯Ό μ΅ν˜”λ‹€.

πŸ‘‰ YouTube κ°•μ’Œ 링크

κ°•μ’Œλ₯Ό 톡해 μ•„λž˜μ™€ 같은 R νŒ¨ν‚€μ§€λ“€μ„ μ‚¬μš©ν•΄λ³Ό 수 μžˆμ—ˆλ‹€.

  • dplyr: 데이터λ₯Ό μ‰½κ²Œ μ „μ²˜λ¦¬ ν•˜κ²Œ λ„μ™€μ£ΌλŠ” νŒ¨ν‚€μ§€
  • ggplot2: 데이터λ₯Ό μ‰½κ²Œ μ‹œκ°ν™”; 산점도, κ·Έλž˜ν”„, λ°•μŠ€ ν”Œλ‘― 등등을 μ‰½κ²Œ 그릴 수 있게 λ„μ™€μ£ΌλŠ” νŒ¨ν‚€μ§€
  • KoNLP: ν•œκ΅­μ–΄ NLP νŒ¨ν‚€μ§€

R둜 좔리 톡계!!

<기술 톡계>κ°€ <평균>, <ν‘œμ€€νŽΈμ°¨> 같은 기초적인 ν†΅κ³„λŸ‰μ— λŒ€ν•œ 접근이라면, <좔리 톡계>λŠ” μΆ”μΆœν•œ ν‘œλ³Έμ—μ„œ 각 μš”μ†Œλ“€ 사이 관계; Correlationλ₯Ό μ‚΄νŽ΄λ³΄κ±°λ‚˜, λͺ¨μ§‘λ‹¨μ˜ νŠΉμ§•μ„ μΆ”λ‘ ν•˜λŠ” 톡계닀. R κ°•μ’Œμ—μ„œλŠ” μžλ™μ°¨ μ—°λΉ„λ₯Ό μ€‘μ‹¬μœΌλ‘œ 거리-μ—°λΉ„ 관계에 λŒ€ν•œ <산점도 scatter plot>λ₯Ό ν™•μΈν•΄λ³΄μ•˜λ‹€.

R둜 ν…μŠ€νŠΈ λ§ˆμ΄λ‹!

R의 KoNLP λΌλŠ” νŒ¨ν‚€μ§€λ₯Ό μ‚¬μš©ν•΄ κ°„λ‹¨ν•œ ν…μŠ€νŠΈ λ§ˆμ΄λ‹μ„ μ‹œλ„ν•΄λ³΄μ•˜λ‹€. μ²˜μŒμ— KoNLP μ„€μΉ˜κ°€ μ›ν™œν•˜μ§€ μ•Šμ•„ 이곳의 포슀트λ₯Ό μ°Έκ³ ν•΄ μ„€μΉ˜ν–ˆλ‹€. κ·ΈλŸ¬λ‚˜ λ„ˆλ¬΄ 기초적인 μˆ˜μ€€μ˜ μ‹€μŠ΅μ„ ν•΄μ„œ κ·ΈλŸ°μ§€ R둜 ν•˜λŠ” ν…μŠ€νŠΈ λ§ˆμ΄λ‹μ€ κ·Έλ ‡κ²Œ μœ μ΅ν•˜μ§„ μ•Šμ•˜λ‹€ πŸ˜₯

νŠΈμœ—μ—μ„œ μ΅œλΉˆλ„ 단어에 λŒ€ν•œ κ·Έλž˜ν”„λ‹€. μ•„μ‰½κ²Œλ„ ν•œκ΅­μ–΄ 인코딩이 κΉ¨μ‘Œλ‹€ πŸ˜₯

R둜 데이터 μ‹œκ°ν™”!!

κ·Έ 외에 ggplot2λ₯Ό μ΄μš©ν•΄ β€œλ…„λ„λ³„ μ‹€μ§μžμˆ˜β€μ˜ κ·Έλž˜ν”„λ₯Ό κ·Έλ¦¬κ±°λ‚˜, λ―Έκ΅­ λ‚΄ λ²”μ£„μœ¨ λΉˆλ„λ₯Ό μ§€λ„λ‘œ μ‹œκ°ν™”ν•˜λŠ” λ“±μ˜ μž‘μ—…μ„ R둜 μ§„ν–‰ν•΄λ³΄μ•˜λ‹€.


R에 λŒ€ν•œ 인상

μ˜ˆμ „μ— pandasλ₯Ό μ‚¬μš©ν•΄λ³Έ 적이 μžˆμ—ˆλŠ”λ°, Rμ—μ„œλ‚˜ pandasμ—μ„œλ„ λ‘˜λ‹€ DataFrameμ΄λΌλŠ” κ°œλ…μ€ λ™μΌν•˜κ²Œ 가지고 μžˆμ—ˆλ‹€! κ·Έλž˜μ„œ κ·ΈλŸ°μ§€ R의 κ°œλ…λ“€μ΄ κ·Έλ ‡κ²Œ μ–΄λ ΅μ§€λŠ” μ•Šμ•˜λ‹€.

μ§€κΈˆ R을 배우고, HW 문제λ₯Ό ν’€λ©΄μ„œ 자주 μ“°κ³  μžˆλŠ”λ°, μƒκ°λ³΄λ‹€λŠ” μ“Έλ§Œν•œ 것 κ°™λ‹€. λ¬Όλ‘  pythonκ³Ό λΉ„κ΅ν•˜λ©΄ ν™•μž₯성이 많이 λ–¨μ–΄μ§€μ§€λ§Œ, κ·Έλž˜λ„ 데이터셋을 λΆ„μ„ν•˜κ³ , ν†΅κ³„μ μœΌλ‘œ μ ‘κ·Όν•˜κΈ°μ—λŠ” μ—¬μ „νžˆ R이 쒋은 것 κ°™λ‹€. λ¬Όλ‘  λŒ€μ„ΈλŠ” python이 λΆ„λͺ…ν•˜μ§€λ§Œ, 아직 R도 ν•¨κ»˜ λ‹€λ£° 수 μžˆμ–΄μ•Ό ν•˜λŠ” 것 κ°™λ‹€.

λ•Œλ‘œλŠ” R의 νŒ¨ν‚€μ§€κ°€ 쒋을 λ•Œλ„ 있고, python의 νŒ¨ν‚€μ§€κ°€ 쒋을 λ•Œλ„ μžˆμ—ˆλ‹€. 결ꡭ은 λ‘˜ λ‹€ μž˜ν•˜λŠ”κ²Œ best 인 것 κ°™λ‹€ 😁

Updated: