Object Detection Datasets

본 글은 2020-2학기 “컴퓨터 비전” 수업을 듣고, 스스로 학습하면서 개인적인 용도로 정리한 것입니다. 지적은 언제나 환영입니다 :)

December 5, 2020 3 minute read

본 글은 2020-2학기 “컴퓨터 비전” 수업을 듣고, 스스로 학습하면서 개인적인 용도로 정리한 것입니다. 지적은 언제나 환영입니다 :)

PASCAL VOC

2005년부터 2012년까지 실시된 PASCAL VOC challenge를 위해 개발된 데이터셋이다.

picture from PASCAL VOC

PASCAL VOC데이터셋은 2007년 버전과 2012년 버전이 있다. 둘 모두 20개 클래스가 있으며, 2007년 VOC는 9,963장, 2012년 VOC는 11,530장의 이미지를 제공한다.

본래의 PASCAL VOC 데이터의 사이트가 잘 접속이 안 되서 미러 사이트인 아래 사이트를 통해 다운로드 할 수 있다.

PASCAL VOC 2007은 439MB로 데이터셋 크기가 거대하지 않아서 데이터셋을 체험하는 용도로 쓸만하다.

현재는 모델의 성능을 평가하는 benchmark 용도로만 사용되며, 학습에는 잘 사용하지 않는다고 한다.

ImageNet 데이터셋은 1,000개 클래스에 1.2M장의 학습 데이터, 100K장의 테스트 데이터를 가진 거대한 데이터셋이다.

ImageNet 데이터셋을 활용하는 ILSVRC ImageNet Large Scale Visual Recognition Challenge 대회를 주관한다. ILSVRC 대회는 2010년부터 2017년까지 진행되었다.

ILSVRC 대회를 통해 기라성 같은 모델들이 쏟아져 나왔다. 우승한 모델들을 살펴보면,

AlexNet, VGG, ResNet 등등 정말 컴퓨터 비전 분야를 견인한 간판 모델들을 배출한 대회다.

다만, 데이터셋 다운로드 과정이 조금 까다롭다.

그러나 ImageNet 데이터셋에는 아래와 같은 문제점이 있었는데

이런 문제점 때문에 데이터셋 외부의 실제 사진에서는 모델의 정확도가 떨어진다는 지적이 있었다.

picture from MS COCO

MC COCO는 PASCAL VOC와 ImageNet 데이터셋의 문제점을 해결한 2014년에 공개된 데이터셋이다.

만 4세 아이가 쉽게 인식할 수 있는 이미지들을 제공한다. 이미지 내부에 다양한 크기의 물체들이 존재하며, 높은 확률로 작은 물체들이 등장한다.

대략 80개 클래스¹에 330K장의 이미지를 제공하며, 1.5M 정도의 object instance들이 존재한다.

2014년 버전과 2017년 버전이 존재한다. 클래스 레이블의 수는 둘다 80개로 동일하다.

COCO 2017는 COCO 2014에서 Train/Val의 비율을 조정한 데이터셋이다. COCO 2014에서는 Train/Val을 83K/41K로 나눴다면, COCO 2017은 Train/Val을 118K/5K의 비율로 나누었다.

데이터셋의 크기가 Train은 ≥13GB, Val과 Test도 6GB 정도의 거대한 데이터셋이다.

참고로 본인이 가진 8GB GPU로도 커버가 안 되는 양이었다 ㅎㄷㄷ 배치 사이즈를 잘 조절하면 모델을 돌릴 수 있긴 했다. 그런데 1 epoch 도는 시간이 도저히 기다릴 수 없는 수준이라서 깔끔하게 로컬에서 돌리는 걸 포기했다 ㅠㅠ