λ³Έ 글은 2020-2ν•™κΈ° β€œμ»΄ν“¨ν„° 비전” μˆ˜μ—…μ„ λ“£κ³ , 슀슀둜 ν•™μŠ΅ν•˜λ©΄μ„œ 개인적인 μš©λ„λ‘œ μ •λ¦¬ν•œ κ²ƒμž…λ‹ˆλ‹€. 지적은 μ–Έμ œλ‚˜ ν™˜μ˜μž…λ‹ˆλ‹€ :)

3 minute read

λ³Έ 글은 2020-2ν•™κΈ° β€œμ»΄ν“¨ν„° 비전” μˆ˜μ—…μ„ λ“£κ³ , 슀슀둜 ν•™μŠ΅ν•˜λ©΄μ„œ 개인적인 μš©λ„λ‘œ μ •λ¦¬ν•œ κ²ƒμž…λ‹ˆλ‹€. 지적은 μ–Έμ œλ‚˜ ν™˜μ˜μž…λ‹ˆλ‹€ :)


λͺ©λ‘

  • PASCAL VOC
    • 2007
    • 2012
  • ImageNet
    • ILSVRC (2010 ~ 2017)
  • MS COCO
    • 2014
    • 2017

PASCAL VOC

2005λ…„λΆ€ν„° 2012λ…„κΉŒμ§€ μ‹€μ‹œλœ PASCAL VOC challengeλ₯Ό μœ„ν•΄ 개발된 데이터셋이닀.

picture from PASCAL VOC

PASCAL VOC데이터셋은 2007λ…„ 버전과 2012λ…„ 버전이 μžˆλ‹€. λ‘˜ λͺ¨λ‘ 20개 ν΄λž˜μŠ€κ°€ 있으며, 2007λ…„ VOCλŠ” 9,963μž₯, 2012λ…„ VOCλŠ” 11,530μž₯의 이미지λ₯Ό μ œκ³΅ν•œλ‹€.

본래의 PASCAL VOC λ°μ΄ν„°μ˜ μ‚¬μ΄νŠΈκ°€ 잘 접속이 μ•ˆ λ˜μ„œ 미러 μ‚¬μ΄νŠΈμΈ μ•„λž˜ μ‚¬μ΄νŠΈλ₯Ό 톡해 λ‹€μš΄λ‘œλ“œ ν•  수 μžˆλ‹€.

PASCAL VOC 미러 μ‚¬μ΄νŠΈ

PASCAL VOC 2007은 439MB둜 데이터셋 크기가 κ±°λŒ€ν•˜μ§€ μ•Šμ•„μ„œ 데이터셋을 μ²΄ν—˜ν•˜λŠ” μš©λ„λ‘œ μ“Έλ§Œν•˜λ‹€.

ν˜„μž¬λŠ” λͺ¨λΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜λŠ” benchmark μš©λ„λ‘œλ§Œ μ‚¬μš©λ˜λ©°, ν•™μŠ΅μ—λŠ” 잘 μ‚¬μš©ν•˜μ§€ μ•ŠλŠ”λ‹€κ³  ν•œλ‹€.


ImageNet

ImageNet 데이터셋은 1,000개 ν΄λž˜μŠ€μ— 1.2Mμž₯의 ν•™μŠ΅ 데이터, 100Kμž₯의 ν…ŒμŠ€νŠΈ 데이터λ₯Ό 가진 κ±°λŒ€ν•œ 데이터셋이닀.

picture from ADRIAN COLYER's blog


ImageNet 데이터셋을 ν™œμš©ν•˜λŠ” ILSVRC ImageNet Large Scale Visual Recognition Challenge λŒ€νšŒλ₯Ό μ£Όκ΄€ν•œλ‹€. ILSVRC λŒ€νšŒλŠ” 2010λ…„λΆ€ν„° 2017λ…„κΉŒμ§€ μ§„ν–‰λ˜μ—ˆλ‹€.

ILSVRC λŒ€νšŒλ₯Ό 톡해 기라성 같은 λͺ¨λΈλ“€μ΄ μŸμ•„μ Έ λ‚˜μ™”λ‹€. μš°μŠΉν•œ λͺ¨λΈλ“€μ„ μ‚΄νŽ΄λ³΄λ©΄,

picture from Siddharth Das's blog

AlexNet, VGG, ResNet λ“±λ“± 정말 컴퓨터 λΉ„μ „ λΆ„μ•Όλ₯Ό κ²¬μΈν•œ κ°„νŒ λͺ¨λΈλ“€μ„ λ°°μΆœν•œ λŒ€νšŒλ‹€.


ImageNet 곡식 μ‚¬μ΄νŠΈ

λ‹€λ§Œ, 데이터셋 λ‹€μš΄λ‘œλ“œ 과정이 쑰금 κΉŒλ‹€λ‘­λ‹€.


κ·ΈλŸ¬λ‚˜ ImageNet λ°μ΄ν„°μ…‹μ—λŠ” μ•„λž˜μ™€ 같은 문제점이 μžˆμ—ˆλŠ”λ°

  • 이미지 λ‚΄μ˜ objectκ°€ 큰 νŽΈμž„
  • objectκ°€ 쀑앙에 잘 μœ„μΉ˜ν•΄ 있음
  • 이미지에 μ‘΄μž¬ν•˜λŠ” object의 μˆ˜κ°€ 적음

이런 문제점 λ•Œλ¬Έμ— 데이터셋 μ™ΈλΆ€μ˜ μ‹€μ œ μ‚¬μ§„μ—μ„œλŠ” λͺ¨λΈμ˜ 정확도가 λ–¨μ–΄μ§„λ‹€λŠ” 지적이 μžˆμ—ˆλ‹€.


MS COCO

picture from MS COCO

MC COCOλŠ” PASCAL VOC와 ImageNet λ°μ΄ν„°μ…‹μ˜ λ¬Έμ œμ μ„ ν•΄κ²°ν•œ 2014년에 곡개된 데이터셋이닀.

만 4μ„Έ 아이가 μ‰½κ²Œ 인식할 수 μžˆλŠ” 이미지듀을 μ œκ³΅ν•œλ‹€. 이미지 내뢀에 λ‹€μ–‘ν•œ 크기의 물체듀이 μ‘΄μž¬ν•˜λ©°, 높은 ν™•λ₯ λ‘œ μž‘μ€ 물체듀이 λ“±μž₯ν•œλ‹€.

λŒ€λž΅ 80개 클래슀1에 330Kμž₯의 이미지λ₯Ό μ œκ³΅ν•˜λ©°, 1.5M μ •λ„μ˜ object instance듀이 μ‘΄μž¬ν•œλ‹€.

2014λ…„ 버전과 2017λ…„ 버전이 μ‘΄μž¬ν•œλ‹€. 클래슀 λ ˆμ΄λΈ”μ˜ μˆ˜λŠ” λ‘˜λ‹€ 80개둜 λ™μΌν•˜λ‹€.

COCO 2017λŠ” COCO 2014μ—μ„œ Train/Val의 λΉ„μœ¨μ„ μ‘°μ •ν•œ 데이터셋이닀. COCO 2014μ—μ„œλŠ” Train/Val을 83K/41K둜 λ‚˜λˆ΄λ‹€λ©΄, COCO 2017은 Train/Val을 118K/5K의 λΉ„μœ¨λ‘œ λ‚˜λˆ„μ—ˆλ‹€.


MS COCO 곡식 μ‚¬μ΄νŠΈ

λ°μ΄ν„°μ…‹μ˜ 크기가 Train은 β‰₯13GB, Valκ³Ό Test도 6GB μ •λ„μ˜ κ±°λŒ€ν•œ 데이터셋이닀.

참고둜 본인이 가진 8GB GPUλ‘œλ„ 컀버가 μ•ˆ λ˜λŠ” μ–‘μ΄μ—ˆλ‹€ γ…Žγ„·γ„· 배치 μ‚¬μ΄μ¦ˆλ₯Ό 잘 μ‘°μ ˆν•˜λ©΄ λͺ¨λΈμ„ 돌릴 수 있긴 ν–ˆλ‹€. 그런데 1 epoch λ„λŠ” μ‹œκ°„μ΄ λ„μ €νžˆ 기닀릴 수 μ—†λŠ” μˆ˜μ€€μ΄λΌμ„œ κΉ”λ”ν•˜κ²Œ λ‘œμ»¬μ—μ„œ λŒλ¦¬λŠ” κ±Έ ν¬κΈ°ν–ˆλ‹€ γ… γ… 


참고자료


  1. COCO λ°μ΄ν„°μ…‹μ˜ 클래슀 λ ˆμ΄λΈ”μ— λŒ€ν•œ μ •λ³΄λŠ” μ΄κ³³μ—μ„œ 확인할 수 μžˆλ‹€.Β