Points as queries: Weakly semi-supervised object detection by points
Liangye Chen et al. / Points as Queries- Weakly Semi-supervised Object Detection by Points / CVPR-2021
์ ๋ ํ์ฌ ๊ณต์ฌํ์ฅ์์ ๋์ ์๋ฐฉ์ ์ํด safety harness(์์ ์กฐ๋ผ)์ lifeline(์์ ์ )์ ์ค์๊ฐ์ผ๋ก ํ์งํ๋ ํ๋ก์ ํธ๋ฅผ ์งํํ๊ณ ์์ต๋๋ค. ๋ฌผ์ฒด ํ์ง ๋ฐฉ๋ฒ์ผ๋ก ์ง๋ํ์ต ๊ธฐ๋ฐ์ ๋ฅ๋ฌ๋์ ํ์ฉํ๋ ค๊ณ ํ๋๋ฐ, ์ด๋ฅผ ์ํด์๋ ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ์ ์ด ํ์ํฉ๋๋ค. ํ์ฌ ์จ๋ผ์ธ ์์๋ ๋ผ๋ฒจ๋ง ์์ ์ด ์ด๋ฏธ ๋ ๋ฐ์ดํฐ์ ๋ค์ด ๋ง์ด ์กด์ฌํฉ๋๋ค. ๊ทธ๋ฌ๋, ์ ํฌ๊ฐ ์ํ๋ safety harness์ lifeline๊ด๋ จ ๋ฐ์ดํฐ์ ์ ์กด์ฌํ์ง ์์์ต๋๋ค. ๋ฐ๋ผ์ ์ง์ ๋ฐ์ดํฐ์ ์ ์์งํ๊ณ , ์์์ ์ผ๋ก ๋ผ๋ฒจ๋ง์ ์งํํด์ผ ํ์ต๋๋ค.
700์ฅ์ด ๋๋ ์ฌ์ง์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ๊ทธ๋ฆฌ๋ฉฐ ๋ผ๋ฒจ๋ง์ ํ๋ค๋ณด๋, ์๊ฐ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค๋ ๊ฒ์ ๋๊ผ์ต๋๋ค. ๊ทธ๋์, ๋ผ๋ฒจ๋ง ์์ ์ ์ํ๊ฑฐ๋ ์ค์ผ ์ ์๋ ๋ฐฉ๋ฒ์ ํตํด์ ๋ฅ๋ฌ๋์ ํ์ต์ํฌ ์๋ ์์๊นํ๋ ์๊ฐ์ด ๋ค์์ต๋๋ค.
๊ทธ๋์ ์ด๋ฒ์ ์๊ฐ๋๋ฆด ๋ ผ๋ฌธ์ 2021๋ CVPR์ ๋ฐํ๋ ๋ ผ๋ฌธ์ผ๋ก, ์ ์ ์์ fully-labeled images์ ๋๋ค์์ weakly-labeled images by points๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ์ ํ์ฉํ weakly semi-supervised ๊ฐ์ฒด ํ์ง ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
๋ ผ๋ฌธ ๋งํฌ https://arxiv.org/abs/2104.07434
1. Problem Definition
์ด ๋ ผ๋ฌธ์ ์ง๋ํ์ต ๋ฅ๋ฌ๋์ ์ํ ๋ผ๋ฒจ๋ง ์์ ๋น์ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์ ํ์ฉํ weakly annotated images๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ์ ์ ์ํ๊ณ ์์ต๋๋ค. ์ด๋ฏธ์ง ์์ค(์ฌ์ง๊ณผ ์นดํ ๊ณ ๋ฆฌ๋ง ์๋)์ ๋ฐ์ดํฐ์ ๊ณผ ๋ฌ๋ฆฌ, ์ ์์ค์ ๋ผ๋ฒจ๋ง(๋ฌผ์ฒด ์์ ์ ๊ณผ ์นดํ ๊ณ ๋ฆฌ๊ฐ ์๋)์ ๋ผ๋ฒจ๋ง ์์ ๋น์ฉ๋ ์ค์ด๊ณ ๊ฐ์ฒด ์์ค์ ์ ๋ณด๋ ์ ๊ณตํ์ฌ ๊ฐ์ฒด ํ์ง์ ์ ์ ํ๋ค๋ ์ ์ ๋๋ค.
๋ํ, ์ด๋ฐ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก, ๊ธฐ์กด์ ๊ฐ์ฒด ํ์ง ๋ฐฉ๋ฒ์ ๋จ์ ์ ํด๊ฒฐํ ์๋ก์ด ๋ฐฉ๋ฒ์ธ PointDETR์ ์ ์ํฉ๋๋ค. ์ ์๋ ๋ฐฉ๋ฒ์ ๊ฐ์ฒด ๋ด ์ ๋ค์ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ฐ๊ณ , ์ด ์ ๋ค์ object queries๋ก ๋ณํํ๊ณ , queries์ ๋ํ object box์ ์์ธกํฉ๋๋ค. ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ผ๋ก ๋ผ๋ฒจ๋ง๋ ๋ฐ์ดํฐ์ ์ ์ ํฉํ๊ณ , weakly semi-supervised detection task์ ํจ์จ์ฑ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
2. Motivation
๊ฐ์ฒด ํ์ง๋ ์ปดํจํฐ ๋น์ ์์ ์ค์ํ ๋ฌธ์ ์ค ํ๋์ ๋๋ค. ๊ทธ๋ฌ๋, ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ผ๋ฒจ๋งํ๊ธฐ์๋ ์๊ฐ์ด ๋ง์ด ์์๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ๊ฐ์ ๊ฐ์ฒด ๋น ์ ๊ตํ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ๋ผ๋ฒจ๋งํ๋๋ฐ 10-35์ด ์ ๋ ๊ฑธ๋ฆฝ๋๋ค.
๋ฐ๋ผ์, ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ๋น์ฉ์ ๊ฐ์ํ๊ธฐ ์ํด weakly supervised object detection(WSOD) ์ semi-supervised object detection(SSOD) ๋ฐฉ๋ฒ์ด ์ ์๋ฉ๋๋ค.

WSOD(weakly supervised object detection)๋ ์ด๋ฏธ์ง ์์ค์ ๋ผ๋ฒจ(์นดํ ๊ณ ๋ฆฌ๋ง ์๋)๊ณผ ๊ฐ์ weak annotations์ผ๋ก ๋ ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํฉ๋๋ค. ์ด๋ ์ ๊ตํ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ณด๋ค ๋ผ๋ฒจ๋งํ๊ธฐ๊ฐ ์ฝ์ต๋๋ค.

SSOD(semi-supervised object detection)๋ ์์ ์์ box-level(๋ฐ์ด๋ฉ ๋ฐ์ค์ ์นดํ ๊ณ ๋ฆฌ๊ฐ ์๋) labeled images์ ๋ง์ ์์ ๋ผ๋ฒจ๋ง ๋์ง ์์ ์ด๋ฏธ์ง๋ก ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค.
๋น๋ก ์ด ๋ฐฉ๋ฒ๋ค์ด ๋ผ๋ฒจ๋ง ๋น์ฉ์ ๋ฎ์ท์ง๋ง, ์ฑ๋ฅ์ ์ฌ์ ํ ์ง๋ํ์ต์ ๋นํด ๋จ์ด์ง๋๋ค. ์ด์ ๋ํ ๋ณด์์ฑ ์ผ๋ก, WSOD์ SSOD๋ฅผ ํฉ์น weakly semi-supervised object detection methods(WSSOD) ๊ฐ ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค.

WSSOD๋ ์์ ์์ box-level labeled images์ ๋ง์ ์์ weakly labeled(์ฌ๊ธฐ์๋ ์ด๋ฏธ์ง ์์ค์ ๋ผ๋ฒจ๋ง) images๋ค์ ํ์ฉํฉ๋๋ค.
๊ทธ๋ฌ๋, ์ด๋ฏธ์ง ์์ค์ ๋ผ๋ฒจ๋ง์ ๋ชจ๋ ๊ฐ์ฒด์ instance-level ์ ๋ณด๋ฅผ ๊ฐ๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์ ๊ฐ์ฒด ํ์ง์ ์ ํฉํ์ง ์์ต๋๋ค.
์ด์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก, point์ ํตํ ์ด๋ฏธ์ง ๋ผ๋ฒจ๋ง์ ์ ์ํฉ๋๋ค.

point์ ์ํ ์ด๋ฏธ์ง ๋ผ๋ฒจ๋ง์ 2๊ฐ์ง ์ฅ์ ์ด ์์ต๋๋ค.
image-level ๋ผ๋ฒจ๋ง๊ณผ ๋น๊ตํ์ ๋, ์ ์ ๊ฐ์ฒด์ ์นดํ ๊ณ ๋ฆฌ ๋ฟ๋ง ์๋๋ผ, ๊ฐ์ฒด ์์น(instance position)์ ์ฌ์ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค
์ ์์น๋ฅผ ๊ฐ์ฒด ์ค์์ ๋ฃ๋ , ๊ฐ์ฅ์๋ฆฌ์ ๋ฃ๋ ํฌ๊ฒ ์๊ด์ด ์์ต๋๋ค. ๋ฐ๋ผ์, ๋ผ๋ฒจ๋ง ๋น์ฉ์ image-level ๋ผ๋ฒจ๋ง๊ณผ ํฐ ์ฐจ์ด๊ฐ ์์ต๋๋ค
๊ทธ๋ฌ๋, ํ์ฌ ๋๋ถ๋ถ์ ํ์ง ๋ชจ๋ธ๋ค์ ์ ๋ผ๋ฒจ๋ง ๊ธฐ๋ฐ์ผ๋ก object box๋ฅผ ์์ธกํ๋๋ฐ ์ด๋ ค์์ ๊ฒช์ต๋๋ค.
์๋ํ๋ฉด, ๋๋ถ๋ถ FPN(Feature Pyramid Network)์ ๊ธฐ๋ณธ ๊ตฌ์ฑ์ผ๋ก ํ๊ณ ์์ต๋๋ค. FPN์ object box๋ฅผ ์์ธกํ๊ธฐ ์ํด multi-level feature map์ ์ฌ์ฉํ๋๋ฐ, point annotation์ single-level feature์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ด์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก, ๋ณธ ์ฐ๊ตฌ๋ DETR(detection with transformer)์ point encoder์ ๋ํ ์๋ก์ด ํ์ง ๋ชจ๋ธ์ธ Point DETR์ ์ ์ํฉ๋๋ค. ์๋ก์ด ๋ชจ๋ธ์ ๋ผ๋ฒจ๋ง๋ ์ ์ ํตํด ์ ํํ๊ฒ object boxes๋ฅผ ์์ธกํ ์ ์์ต๋๋ค. ํนํ, object boxes๋ฅผ ์์ธกํ๊ธฐ ์ํด single-level feature map์ ์ฌ์ฉํฉ๋๋ค.
๊ธฐ์กด์ DETR๊ณผ ๋ค๋ฅธ ์ ์, ๋ผ๋ฒจ๋ง๋ ์ ์ ์์น์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ point encoder์ ํตํด object queries๋ก ์ธ์ฝ๋ฉํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด, ์ ๊ณผ object queries์ฌ์ด ์ผ๋์ผ ๋์๊ด๊ณ๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค. ๋ํ, ํ์ง ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ๋ DETR์ฒ๋ผ box predictions์ ๋ฐ๋ก ๋ง๋ค๊ธฐ ๋ณด๋จ, ํฌ์ธํธ ์์น์ ๋ํ ํ์์ ์ผ๋ก ์์ ์์ธก์ ์ํํฉ๋๋ค.
๋ชจ๋ธ์ ์ฐ์์ฑ์ ๋ณด์ด๊ธฐ ์ํด, MS-COCO๋ฐ์ดํฐ์ ์ ๊ธฐ์ค์ผ๋ก ๋ค๋ฅธ point-based detector์ธ FCOS์ ๋น๊ตํ์ต๋๋ค.
์ฃผ์ ๊ธฐ์ฌ์ 3๊ฐ์ง๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค
์ ์ ์์ fully annotated images์ ๋ง์ ์์ weakly annotated images by points๋ก ๊ตฌ์ฑ๋ weakly semi-supervised object detection task๋ฅผ ์ํ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ์ ์ํฉ๋๋ค. ์ด๋ฏธ์ง ์์ค์ ์ด๋ฏธ์ง์ ๋น๊ตํ์ ๋, ์ด ์ธํ ์ instance-level ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ณ , ๋ผ๋ฒจ๋ง ๋น์ฉ๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค.
์ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐํด์, ๋ณธ ์ฐ๊ตฌ๋ ๊ธฐ์กด์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ๋จ์ ์ ๋ถ์ํ๊ณ , ์ฝ๊ณ ๊ฐ๋จํ Point DETR์ ์ ์ํฉ๋๋ค.
์๋ก์ด ํ์ง ๋ชจ๋ธ์ ๋ค์ํ ๊ตฌ์ฑ์ ๋ฐ์ดํฐ์ ์์ ๋๋ถ๋ถ์ ํ์ง ๋ชจ๋ธ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
3. Method
WSSOD(weakly semi-supervised object detection)์ ์ ์ ์์ instance-level(box-level) labled images์ ๋ง์ ์์ weakly image-level labeled images๋ฅผ ํ๋ จ์ฉ ๋ฐ์ดํฐ๋ก ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฌ๋, ์ด๋ฏธ์ง ์์ค์ ๋ผ๋ฒจ๋ง๋ ์ฌ์ง์ ๊ฐ์ฒด ์ ๋ณด๋ฅผ ๊ฐ๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์ WSSOD์๋ ์ ํฉํ์ง ์์ต๋๋ค.
๊ทธ๋ ๋ค๋ฉด, ๋ผ๋ฒจ๋ง ๋น์ฉ ๋ถ๋ด์ ์๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์์๊น์?
๋ณธ ์ฐ๊ตฌ๋ weakly labeled images์ point annotation์ ์๊ฐํฉ๋๋ค. Point annotation์ weakly semantic segmentation์ ์ฌ์ฉ๋์์ง๋ง, ๊ฐ์ฒด ํ์ง์๋ ์ ํ์ฉ๋์ง ์์์ต๋๋ค.
๊ฐ์ฒด ํ์ง์์, ๋ณธ ์ฐ๊ตฌ๋ point annotation์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํฉ๋๋ค:
๊ฐ์ฒด ๋ด ์์นํ๊ณ , ๊ฐ์ฒด ํด๋์ค๋ฅผ ์นดํ ๊ณ ๋ฆฌ๋ก ์ทจ๊ธํฉ๋๋ค.
์ฆ, ๊ฐ์ฒด๋ฅผ (x,y,c) ๋ก ํํํ ์ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ point annotations์ ๊ฐ์ฒด ์ด๋๋ ์ง ์์นํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด, ๋ผ๋ฒจ๋ง ๋น์ฉ ๋ถ๋ด์ ์ํํ ์ ์์ต๋๋ค.
์ ์ฒด์ ์ธ ํ๋ ์์ํฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.

์ ์ ์์ ์์ ํ ๋ผ๋ฒจ๋ง๋ ์ด๋ฏธ์ง์ ๋ง์ ์์ ์ ์ผ๋ก ๋ผ๋ฒจ๋ง๋ ์ด๋ฏธ์ง์ ํจ๊ป, ์ค์ง๋ํ์ต์์ ์ฌ์ฉ๋๋ self training์ ํ๋ จ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ์ค์ ํฉ๋๋ค.
์ฌ์ฉ ๊ฐ๋ฅํ ๋ผ๋ฒจ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ํตํด teacher model์ ํ๋ จํฉ๋๋ค
ํ๋ จ๋ teacher model์ ํ์ฉํ์ฌ weakly point annotated images์ pseudo-labels์ ๋ง๋ญ๋๋ค
Fully labeled images์ pseudo-labeled images๋ก student model์ ํ๋ จํฉ๋๋ค
๊ธฐ์กด์ ํ์ง ๋ชจ๋ธ์ 2๊ฐ์ง ๋ถ๋ฅ๋ก ๋๋ฉ๋๋ค.
Multi-level detector(FCOS) : point annotations์ feature-level ์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์, point annotation์ผ๋ก object box๋ฅผ ์์ธกํ๊ธฐ ์ด๋ ต์ต๋๋ค
Single-level detector(Faster R-CNN) : feature map levels์ ์ ํํ์ง ์์๋ ๋ ์ง๋ผ๋, bad performance๋ point annotation์ ์๊ฒฉํ ์กฐ๊ฑด์ด ํ์ํฉ๋๋ค.
3.1 Point DETR
point annotations์ ๊ฐ์ง WSSOD์์ ๊ธฐ์กด์ detector์ ์ฝ์ ์ ํผํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ๋ ์๋ก์ด detector์ธ Point DETR์ ์ ์ํฉ๋๋ค. ์ด๋ point annotations์ object queries๋ก ๋ณํํ๊ณ , ๊ฐ๊ฐ์ object query์์ image features์ ์ถ์ถํ๊ณ , ๊ทธ์ ๋์ํ๋ object box๋ฅผ ๊ฒฐ๊ณผ๋ก ๋ ๋๋ค.

์ฐ์ , DETR์ ๋ํด ์์๋ด ๋๋ค.
DETR์ end-to-end set-based object detector์ ๋๋ค. DETR์ CNN backbone, encoder-decoder transformer, prediction head๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
DETR์ ๋จผ์ CNN backbone์์ single-level 2D feature map์ ์ถ์ถํ๊ณ , flattenํ๊ณ , positional encoding์ผ๋ก ๋ณด์ถฉํฉ๋๋ค. ๊ทธ ๋ค์, encoder-decoder transformer๊ฐ ๊ณ ์ ๋ ์์ object queries๋ฅผ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ฐ๊ณ , 1D image feature embeddingํํ๋ก ๊ฒฐ๊ณผ๊ฐ์ ์ฐ์ถํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, transformer์ output embeddings์ prediction head๋ก ์ ๋ฌ๋์ด, ์ด๋ค ํด๋์ค์ ์ํ๋์ง ์์ธกํฉ๋๋ค.
Point DETR์ DETR์ ๋ง์ ๋ถ๋ถ์ ํ์ฉํฉ๋๋ค. ๋ค๋ฅธ ์ ์, Point DETR์ point encoder์ ๊ฐ์ง๋๋ค. Point encoder๋ point annotations์ object queries๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. DETR์ object queries์ ๋ฌ๋ฆฌ, ์ด object queries๋ ๊ฐ์ฒด instance์ position๊ณผ category๋ฅผ ํฌํจํ๋ instance embeddings์ ํน์ํฉ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก, ์ด object queries๋ object instances์ ์ผ๋์ผ ๋์์ ๊ฐ์ง๋๋ค. ๊ฒ๋ค๊ฐ, object queries์ ์๋ DETR์์์ฒ๋ผ ๊ณ ์ ๋ ๊ฒ์ด ์๋๋ผ, ์ด๋ฏธ์ง ๋ด object instance์ ์์ ๋ฐ๋ผ ๋ณํํฉ๋๋ค.
ํ์ตํ๋ ๋์, ๊ฐ๊ฐ์ object query์ loss๋ฅผ Lbox๋ผ ์ ์ํฉ๋๋ค. ์๋ํ๋ฉด, ์ด๋ฏธ ์นดํ ๊ณ ๋ฆฌ๋ ์๊ณ , object box๋ง regressํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. Lbox๋ DETR์์ ์ ์ํ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
Point encoder : point DETR์์, point annotations์ object queries๋ก ์ธ์ฝ๋ฉํ๋ ๊ฒ์ point encoder์๊ฒ ์ค์ํฉ๋๋ค.

point annotation(x,y,c) ๋ 2D ์ขํ (x,y) ์ ์นดํ ๊ณ ๋ฆฌ ์ธ๋ฑ์ค c๋ก ๋ถํด๋ฉ๋๋ค. (x,y)์ ๊ทผ๊ฑฐํด์, position embedding์ fixed spatial positional encodings์์ ์ถ์ถ๋๋ค. category embedding์, category index c์ ์ํด ๋ฏธ๋ฆฌ ์ ์๋ category embedding์ผ๋ก ๋ถํฐ ์ป์ด์ง๋๋ค. ์ต์ข ์ ์ผ๋ก, ์ด sum operation์ ํตํด ์ด embedding์ ํฉ์ณ์ object query๋ฅผ ์ป์ต๋๋ค.
4. Experiment
Dataset
COCO 2017 detection dataset (118k training images, 5k val images)
Point annotated setting์ ๋ํด์, training images์ 5%, 10%, 20%, 30%, 40%, 50% ๋ฅผ fully labeled set๋ก ํ๊ณ , ๋๋จธ์ง๋ฅผ weakly labeled set์ผ๋ก ์ค์ ํฉ๋๋ค
Weakly labeled set์ ๋ํด, ๊ฐ๊ฐ์ object์ ๋ํด 2๊ฐ์ง point annotation ๋ฐฉ๋ฒ์ด ์์ต๋๋ค
๋ง์ฝ object๊ฐ instance segmentation์ ๊ฐ์ผ๋ฉด, instance mask๋ก๋ถํฐ point๋ฅผ ๋๋ค ์ถ์ถํ๋ค
๋ง์ฝ ์ ๊ฐ์ผ๋ฉด, bounding box์์ point๋ฅผ ๋๋ค ์ถ์ถํ๋ค
Training
2๊ฐ์ ๋ชจ๋ธ ์กด์ฌ
Teach model : Point DETR, FCOS, Faster R-CNN
Student model : FCOS (student model์ teacher model์ ํจ์จ์ฑ์ ํ๊ฐํ๋๋ฐ๋ง ์ฌ์ฉ๋จ)
Student model์ ๋ํด, student๋ฅผ ํ์ตํ๊ธฐ ์ํด fully labeled images์ teacher model์ ์ํด ์์ฑ๋ pseudo-labeled images๋ฅผ ํฉ์นฉ๋๋ค
Results

Supervised๋, student model์ fully annotated images๋ก๋ง ํ์ตํ ๊ฒ์ ๋๋ค.
FCOS์ Point DETR์ด Supervised๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ผ๋ก ๋ณด์, pseudo-boxes๋ก ์ธํ ์ด์ ์ด ์ฆ๋ช ๋์์ต๋๋ค. ์ฆ**, point annotations์ด ์๋ images๊ฐ detection task ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.**
๊ฒ๋ค๊ฐ, Point DETR์ด FCOS๋ณด๋ค ์ฑ๋ฅ์ด ๋์์ต๋๋ค.
Ablation study
Effect of Point Encoder
Positional embedding๋ง ๊ฐ์ง point encoder๊ฐ catergory embedding๋ง ๊ฐ์ง Point Encoder๋ณด๋ค ์ฑ๋ฅ์ด ๋์ต๋๋ค.
์ฆ, ๋ณธ ์ฐ๊ตฌ์ ๋ฐฉ๋ฒ์ ์ค์ง object boxes๋ฅผ regressํ๊ธฐ ๋๋ฌธ์, positional embeddings์์ด bounding box ๊ด์ ์์ ์๋์ ์ธ point๋ก ํ์ตํ๊ธฐ๋ ์ด๋ ต๋ค๋ ๊ฑธ ๋ณด์ฌ์ค๋๋ค
Catergory embedding์ ํตํด์๋ object shape๊ฐ์ ์ฌ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํฉ๋๋ค
Effect of Student Model
Student model๋ก FCOS์ RetinaNet์ ๋น๊ตํ์ฌ ๋ชจ๋ธ์ ๊ฒฌ๊ณ ํจ์ ๋น๊ตํ์ต๋๋ค
๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ด FCOS๋ณด๋ค 2.1AP ๋์ ๊ฒ์ ํตํด, student model์ robustํจ์ ์ ์ ์์ต๋๋ค
Comparison with another single-level detector
Single-level feature detector์ธ Faster R-CNN๊ณผ ๋น๊ต ๊ฒฐ๊ณผ, ๋ณธ ์ฐ๊ตฌ์ ๋ชจ๋ธ์ด 1.9AP ๋์์ ์ ์ ์์ต๋๋ค
Effect of Point Location
๊ฐ์ฒด ๋ด ์ค์ฌ์ ๊ณผ ์ค์ฌ์ ์ด ์๋ ์ ์ ์์น ์ฌ์ด์ ์ฑ๋ฅ ๋น๊ต ๊ฒฐ๊ณผ, ์ฐจ์ด๊ฐ ์์์ต๋๋ค
์ฆ, ๋ณธ ๋ชจ๋ธ์ ์ฐ๊ตฌ๋ ์ ์ ์์น์ robustํฉ๋๋ค
Absolute vs. Relative Regression
๋ณธ ์ฐ๊ตฌ์ ๋ฐฉ๋ฒ์ object boxes์ ์์ธกํ๊ธฐ ์ํด relative regression์ ์ฌ์ฉํ์ต๋๋ค
DETR์์๋ Absolute regression์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ก์ ์๊ณ์ ๊ฐ์ด ์ ๊ณผ bouding box๋ฅผ ์ผ์น์ํค์ง ๋ชปํฉ๋๋ค
Effect of Point Annotations
Point DETR์ mAP์ recall ๊ด์ ์์ DETR๋ณด๋ค ์ฑ๋ฅ์ด ๋์์ ์ ์ ์์ต๋๋ค
Point annotations๊ณผ ํจ๊ป, ๋ณธ ์ฐ๊ตฌ์ ๋ฐฉ๋ฒ์ classification score์ quality๋ก๋ถํฐ ๋ฐฉํด๋ฅผ ๋ฐ์ง ์์ต๋๋ค
DETR์์๋ Absolute regression์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ก์ ์๊ณ์ ๊ฐ์ด ์ ๊ณผ bouding box๋ฅผ ์ผ์น์ํค์ง ๋ชปํฉ๋๋ค
5. Conclusion
๋ณธ ๋ ผ๋ฌธ์์๋ weakly semi-supervised detection task์์ point-annotations์ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ, point annotations์ด ๊ธฐ์กด์ detector์๋ ์ ๋ง์ง ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ์์๋ Point DETR ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ DETR๊ณผ ๋ค๋ฅด๊ฒ, point encoder์ ์ ์ฉํ์ฌ point annotations๊ณผ objects ์ฌ์ด์ ์ผ๋์ผ ๋์์ ๊ฐ๋ฅ์ผ ํ์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์ ์ ๊ทผ๋ฒ์ ๊ฐ๋จํ๊ณ ์ฝ๊ฒ ์ ์ฉ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. COCO ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ ๊ธฐ์กด์ ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ์ฑ๋ฅ์ด ์ฐ์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๊ฐ์ธ์ ์ธ ์๊ฒฌ
์ง๋ํ์ต์ ๋ฌธ์ ์ ์ธ ๋ผ๋ฒจ๋ง ๋น์ฉ์ ์ค์ด๊ณ ์ฑ๋ฅ์ ์ ์งํ๋ ํ์ง ๋ชจ๋ธ์ ๋ํด์ ์์ธํ ๋ฌ์ฌ๋์ด ์์ด์ ์ข์์ต๋๋ค. Weakly semi-supervised object detection์์ ์ด๋ฏธ์ง ์์ค์ weakly labeled images์ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ฐ์ฒด ํ์ง๊ฐ ์๋๋ผ semantic segmentation์์ ์ฌ์ฉ๋์๋ ์ ๊ธฐ๋ฐ์ ์ง๋ํ์ต์ ํ์ฉํ๋ค๋ ์ ์ด ํฅ๋ฏธ๋ก์ ์ต๋๋ค. ๋ํ, ๋ชจ๋ธ์ ์ฐ์ธ ๋คํธ์ํฌ ๊ตฌ์กฐ๊ฐ ๊ทธ๋ฆผ์ผ๋ก ์ ํํ๋์ด ์ ๋ ฅ๊ฐ๊ณผ ๊ทธ๊ฒ์ด ์ด๋ป๊ฒ ์ฒ๋ฆฌ๋๊ณ ๊ฒฐ๊ณผ๊ฐ์ด ์ด๋ค ํํ์ธ์ง ์ฝ๊ฒ ์ฐ์ฌ์์ด์ ์ดํดํ๊ธฐ ์ฌ์ ์ต๋๋ค. ์ฌ์ง์ด ์ ๊ณต๋์ด์ ์ฐ๊ตฌ์ ๊ณผ์ ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์์๋ณด๊ธฐ๊ฐ ์ ์ฉํ์ต๋๋ค.
๊ธฐ์กด์๋ point-based detection์ด ๊ฑฐ์ ํ์ฉ๋์ง ์์์๋๋ฐ, ๋ค๋ฅธ ๋ถ์ผ์ ๊ธฐ์ ์ ๊ฐ์ฒด ํ์ง์์ ์ ์ ํ ํ์ฉํ๋ค๋ ์ ์ ๋ณด๊ณ , ์ ๋ ๋ค๋ฅธ ๋ถ์ผ์์ ํ์ฉ๋๋ ๊ธฐ์ ๋ค์ ๊ด์ฌ์ ๊ธฐ์ธ์ด๊ณ ๊ฐ์ฒด ํ์ง์ ์ด๋ป๊ฒ ํ๋ฉด ์ ํ์ฉํ ์ ์์๊น ๊ณ ๋ฏผํด๋ด์ผ ๊ฒ ๋ค๋ ์๊ฐ์ด ๋ค์์ต๋๋ค.
๋ํ, ์ ์ ์์น๋ ํฌ๊ฒ ์ค์ํ์ง ์๋ค๋ ์ ์ด labeling cost๋ฅผ ์ค์ด๋๋ฐ ํฐ ๊ธฐ์ฌ๋ฅผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ๋ค๋ง, ์ ๊ฐ ๋ผ๋ฒจ๋งํ๋ ค๊ณ ํ๋ ํฌ๋ฉง์ด๋ safety harness ๊ฐ์ ๊ฒฝ์ฐ๋ ํฌ๊ธฐ๊ฐ ์ ๋ณด์ด์ง๋ง, ์์ ์ฐ๊ฒฐ์ ์ ๊ฒฝ์ฐ ์์ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ฐ ์ ์ ํตํด์๋ ํ์ต์ด ๊ฐ๋ฅํ์ง ์๋ฌธ์ด ๋ค์์ต๋๋ค.
์์ฌ์ด ์ ์ ๋ณธ ์ฐ๊ตฌ์์๋ relative regression์ ์ฌ์ฉํ์๊ณ , ๊ธฐ์กด์ ๋ชจ๋ธ์ absolute regression์ ์ฌ์ฉํ์ฌ์ ๋ณธ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ ๊ณผ ๋ฐ์ด๋ฉ ๋ฐ์ค๊ฐ ๋งค์นญ ์๋ฌ๊ฐ ์ค์๋ค๋ ์ ์ ๋ํ ์ด์ ๊ฐ ๋ฐํ์ง์ง ์์์ ์์ฌ์ ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ , weakly labeled images๊ฐ ์ ์ฒด ์ด๋ฏธ์ง ์ค ์ด๋ ์ ๋๋ฅผ ์ฐจ์งํด์ผ ํ๋์ง ์ต์ ์ ๋น์จ๋ ๋์ค์ ์ฐ๊ตฌํด๋ด์ผ ํ ๊ฒ ๊ฐ์ต๋๋ค. ์ถ๊ฐ๋ก, point annotation๋ ์ด๋ฏธ์ง๊ฐ pseudo bouding box๋ฅผ ๋ง๋๋ ๊ณผ์ ์ด ์๋์ฝ๋์ ๊ฐ์ด ์ข ๋ ์์ธํ ์์ ๋์๋ค๋ฉด ์ข์์ ๊ฒ ๊ฐ์ต๋๋ค.
Author Information
Doil Kim
Affiliation : Master Course in KAIST KSE program
Research Topic : Data science, Object detection, Human factors
6. Reference & Additional materials
Reference :
Points as Queries: Weakly Semi-supervised Object Detection by Points
https://arxiv.org/abs/1612.03144
https://wikidocs.net/145910
Last updated