YOLO: You Only Look Once
์ด ๊ธ์ ์ ๊ฐ ใYOLO: You Only Look Onceใ๋ฅผ ๊ณต๋ถํ๋ฉด์, ์ ๋ฆฌํ ํฌ์คํธ์ ๋๋ค. ์ง์ ๊ณผ ์กฐ์ธ์ ์ธ์ ๋ ํ์์ ๋๋ค ใ ใ
<YOLO>๋ ๋ํ์ ์ธ 1-stage detector ์ค ํ๋์ด๋ค. 2-stage detector์ธ <Fast R-CNN>์ด โCNN + RPNโ๋ก, 2๊ฐ์ ๋คํธ์ํฌ๋ก ๊ตฌ์ฑ๋์ด ์๋ค๋ฉด, 1-stage detector์ธ <YOLO>์ ๋จ์ผ ๋คํธ์ํฌ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋จ์ผ ๋คํธ์ํฌ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์, โend-to-endโ ํ์ต์ด ๊ฐ๋ฅํ๋ค!
Model: Unified Detection
๋จผ์ , <YOLO> ๋ชจ๋ธ์ ํต์ฌ ์์ด๋์ด์ธ <Unified Detection>์ ๋ฐ๋ก ์ดํด๋ณด์. ์๋ฆฌ๋ ์๊ฐ๋ณด๋ค ๊ฐ๋จํ๊ณ , ์ง๊ด์ ์ด๋ค.
๋จผ์ , ์ด๋ฏธ์ง๋ฅผ $S \times S$์ ๊ทธ๋ฆฌ๋(Grid)๋ก ๋ถํ ํ๋ค. ๋ ผ๋ฌธ์์๋ $S=7$์ ๊ฐ์ ์ฌ์ฉํ๋ค. (์ผ์ชฝ ๊ทธ๋ฆผ)
๋ค์์ผ๋ก Grid cell ํ๋ํ๋์ ๋ํด โbounding boxโ๊ณผ โconfidenceโ๊ฐ ๋ด๊ธด vector๋ฅผ ์์ธกํ๋ค. โconfidenceโ๋ $[0, 1]$์ ๊ฐ์ด๋ฉฐ, โbounding boxโ๋ $(cx, cy, w, h)$์ ํ์์ด๋ค. ๊ทธ๋์ ์ด 5์ฐจ์์ vector๋ฅผ ์์ธกํ๋ค.
์ด๋, ๊ฐ Grid cell์์ ๋ช๊ฐ์ vector๋ฅผ ์์ธกํ ์ง๋ฅผ ๊ฒฐ์ ํ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ $B=2$๋ก ์ค์ ํด, Grid cell๋ง๋ค 2๊ฐ์ bbox์ confidence์ vector๋ฅผ ์์ธกํ๋๋ก ์ค์ ํ๋ค. (๊ฐ์ด๋ฐ์ ์๊ทธ๋ฆผ)
๋ง์ง๋ง์ผ๋ก, ๊ฐ Grid cell์ ์ด๋ค ๋ฌผ์ฒด๊ฐ ๋ค์ด์์์ง ๋ถ๋ฅ(Clssification)ํ๋ ์์ ์ ์ํํ๋ค. ๋ ผ๋ฌธ์์๋ ์ ์ฒด ๋ผ๋ฒจ์ ์ $C$๊ฐ $C=20$์ธ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค. (๊ฐ์ด๋ฐ์ ์๋ซ๊ทธ๋ฆผ)
๋ง์ง๋ง์ผ๋ก ์ด ๋ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ๊ณ , ๋ ์ ๋นํ NMS๋ฅผ ์ํํด ์ค์ Prediction output๋ฅผ ์ถ๋ ฅํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด output๋ฅผ ๋ฐํ์ผ๋ก loss๋ฅผ ๋งค๊ฒจ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค. (์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ)
๊ฒฐ๊ตญ <YOLO>๋ Detection์ ํ์ํ ๋ ๊ณผ์ ์ธ โLocalizationโ๊ณผ โClassificationโ์ Regression์ ๊ด์ ์์ ์ ๊ทผํด ํ๋ฒ์ ํด๊ฒฐ ํด๋ฒ๋ ธ๋ค!! ๐ฒ
์ฌ์ค ์ง๊ธ์ โLocalization + Classificationโ์ ํ๋ฒ์ ์ํํ๋ 1-stage ๋ชจ๋ธ1์ด ๋ง์ด ์ ์๋์ด์, <YOLO> ๋ชจ๋ธ์ ์ ๊ทผ์ด ๋ค์ ๋ฒ๊ฑฐ๋ก์ ๋ณด์ด์ง๋ง, <YOLO>๊ฐ ๋์์ ๋น์์ธ 2015๋ ์๋ ์ ๋ง HOT๐ฅํ ๋ชจ๋ธ์ด์๋ค.
Why YOLO
<YOLO>๊ฐ ์ฃผ๋ชฉ๋ฐ๋ ์ด์ ๋ 1-stage ๋ชจ๋ธ์ ๊ธธ์ ์ ์ํ๋ค๋ ๊ฒ ๋ฟ๋ง ์๋๋ผ, ์ฌ๋ฌ๊ฐ์ง๊ฐ ์๋ค.
1. ๋น ๋ฅธ Inference
์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์คฌ์ ๋, ๊ทธ ๊ฒฐ๊ณผ๊ฐ ์์ฃผ ๋น ๋ฅด๊ฒ ์ถ๋ ฅ๋๋ค๋ ๋ง์ด๋ค. ๊ทธ๋์ Real-Time์ผ๋ก Detection์ ์ํํ ์ ์๋ค. ์ฌ์ค์ <YOLO> ์ดํ์ ๋๋ถ๋ถ์ 1-stage ๋ชจ๋ธ์์๋ Real-Time Detection์ด ๊ฐ๋ฅํ๋ค.
2. ์ด๋ฏธ์ง๋ฅผ globalํ๊ฒ ํ์
๊ธฐ์กด์ โsliding windowโ ๋ฐฉ์๊ณผ โregion proposalโ ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ, ์ด๋ฏธ์ง์ ์ ์ฒด๋ฅผ ๋ณด๊ณ ํ๋จํ๋ค๊ณ ํ๋ค. ๊ทธ๋์ Fast R-CNN๋ณด๋ค background error๊ฐ ๋ ๋ฎ๋ค.
3. ์ผ๋ฐํ๊ฐ ์ฝ๋ค
์ด๋ค ๋ฐ์ดํฐ์ ์ผ๋ก pre-train ์ํจ ๋ชจ๋ธ์ ์ฌ์ฉํด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ํ์ต์์ผ๋ ์ ๋์ํ๋ค๊ณ ํ๋ค.
์ค์ต
๋ณธ์ธ์ <YOLOv3>, <YOLOv5> ๋ชจ๋ธ์ ์ฌ์ฉํด๋ดค๋ค. ๊ฒฝํ์ ๋น์ถ์ด ๋ดค์ ๋, <YOLO> ๋ชจ๋ธ์ ์ ๋ง ์ข์ ์ฑ๋ฅ์ ๋ฑ์ด์ ๋ชจ๋ธ์ ์คํ์ํค๋ฉด ๊ธฐ๋ถ์ด ์ข์๋ค ๐
๊ฐ์ธ์ ์ผ๋ก โ๋นตํ์ ๊ฐ๋ฐ๋์๊ตญโ ์ ํ๋ธ์ ์์์ด YOLOv5๋ฅผ ์ฒ์ ์ ๋ฌธํ๊ธฐ ์ข์ ์์์ธ ๊ฒ ๊ฐ๋ค.
๐ YOLO v5 ์ปค์คํ ํ์ต ํํ ๋ฆฌ์ผ
References
-
๋ํ์ ์ผ๋ก <ExtremeNet>, <CenterNet> ๋ฑ์ด ์๋ค.ย ↩