Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation
Xingning Dong et al. / Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation / CVPR 2022
1. Task Definition
์ฐ์ Scene Graph Generation ์ด ๋ฌด์์ธ์ง ๊ฐ๋ตํ ์๊ฐํ๊ฒ ์ต๋๋ค
Scene Graph Generation (SGG) ๋, ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ๋ ์ด๋ฅผ ๊ทธ๋ํ๋ก ๋ฐ๊พธ์ด์ฃผ๋ Task ์ ๋๋ค.

๊ทธ๋ฆผ1์ SGG์ ๋ชจ๋ธ์ ๊ณผ์ ์ ๋ํ๋ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ์ค๋ช ํ๋ฉด, ์ฌ๋๊ณผ ๋ง์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ชจ๋ธ์ด ๊ทธ๋ํ๋ฅผ ์์ฑํฉ๋๋ค.
์ด ๋ ์ฐ๋ฆฌ๊ฐ ์์ฑํ๊ณ ์ถ์ ๊ทธ๋ํ G๋ V, E, R, O ์ด 4๊ฐ์ง ์ปดํฌ๋ํธ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
V ๋ ๋ ธ๋, object detector์ proposal ๋ก ๊ตฌ์ฑ๋๋ฉฐ E ๋ edge๋ก, ์ฐ๊ด์ด ์๋ object ๋ผ๋ฆฌ ์ฐ๊ฒฐ์ด ๋ฉ๋๋ค.
๋ํ SGG ์์๋ ๊ฐ ๋ ธ๋์ ์ฃ์ง์ label ์ class ๊ฐ ๋ฌด์์ธ์ง ๊ตฌ๋ถํ๋ classification Task๋ ์ํํฉ๋๋ค.
R ์ Edge์ Relation class๋ฅผ ๋ปํ๋ฉฐ, O ์ Object์ class๋ฅผ ๋ปํฉ๋๋ค.
๋ฐ๋ผ์ ์ต์ข ์ป์ Graph ๋
<object, predicate, subject> (์ฌ๋, ๋จน์ด์ฃผ๋ค, ๋ง) ์ ๊ฐ์ triplet ์ ์กฐํฉ์ผ๋ก ์ด๋ฃจ์ด์ง๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ฌ๋ฉด ์์ ์์ผ๋ก ๋ถํฐ
P(V | I ) - object detector
P(E | V, I ) - relation proposal netowrk
P(R, O | V, E, I ) - Classification models for entity and predicate.
์ด 3๊ฐ์ง๋ฅผ ๋ชจ๋ธ๋ง ํ๋ฉด ์ ํฌ๋ Scene Graph ๋ฅผ ์์ฑํ ์ ์๋ ๋ฌธ์ ๋ฅผ ์ ์ํ ์ ์๊ฒ๋ฉ๋๋ค.
ํนํ๋ ์ด ์ฐ๊ตฌ์ ์ค์ ์, Unbiased SGG ๋ก์, ํน์ class ์ biased ๋์ง ์๊ณ ,
๋ค์ํ relation์ ๋ง์ถ ์ ์๋๋ก (class imbalanced training ๊ณผ ์ ์ฌ) ํ๋ SGG ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
2. Motivation
๊ทธ๋ ๋ค๋ฉด ํ์ฌ ์กด์ฌํ๋ SGG ๋ชจ๋ธ์ ์ด๋ค ์ฐ๊ตฌ๋ค์ด ์๊ณ , ๋ ๊ทธ ์ฐ๊ตฌ๋ค์ ์ด๋ค ํ๊ณ์ ์ด ์๋์ง ์์๋ณด๊ฒ ์ต๋๋ค.
Scene Graph Generation
๊ธฐ์กด SGG ๋ฐฉ๋ฒ๋ค์ visual context๋ฅผ ๋ฐ์ํ Scene Graph ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ง์ ๋ ธ๋ ฅ์ ๊ธฐ์ธ์์ต๋๋ค. Scene ์ Object ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ฐ์ํ context๋ฅผ ํ์ตํ๊ธฐ ์ํ์ฌ ๋ ธ๋ ฅํฉ๋๋ค.
์ด๊ธฐ์๋ scene ์ ํํํ๋ feature์ ๋ํด ์ฐ๊ตฌํ์์ต๋๋ค. ๊ทธ๋ค์ Faster R-CNN object detector ๋ก ์ถ์ถํ feature๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ์ฌ, ๋ชจ๋ธ์ ํ์ตํ๋์ง์ ๋ ๋์๊ฐ language feature (class label์ word) ๋ฑ์ ์ด์ฉํ์ฌ, ๋ณด๋ค ๋์ scene graph context ๋ฅผ ํ์ตํ๊ณ ์ ํ์์ต๋๋ค.
ํ์ฌ์๋ ๋ชจ๋ธ ์์ค์์, ์ด๋ป๊ฒ context๋ฅผ ์ถ์ถํ ์ง์ ์ค์ ์ ๋ ์ฐ๊ตฌ๊ฐ ๋ง์ด ๋ฐ๋ฌํ์์ต๋๋ค. ๊ทธ๋ค์ ๊ธฐ์ด์ ์ผ๋ก LSTM ๊ณผ ๊ฐ์ sequential ๋ชจ๋ธ, GNN ๋๋ฉ์ธ์์ ์ฌ์ฉํ๋ meassage propagation scheme, ๋๋ self-attention network ๋ฑ์ ์ฌ์ฉํ์ฌ ๊ทธ๋ฌํ context๋ฅผ ๋ชจ๋ธ๋งํ์์ต๋๋ค. ํ์ง๋ง, ์ด๋ ๊ฒ expressive power๋ฅผ ์ฌ๋ ค๋, Scene Graph ๋ฐ์ดํฐ์ ์กด์ฌํ๋ label class์ bias ๋ฌธ์ ์๋ ์์ฃผ ์์ํ ํฅ์๋ง์ ๊ฐ์ ธ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ์ค๋ช ํ๋ฉด, 'on'๊ณผ ๊ฐ์ด ๋น๋ฒํ ๋ฑ์ฅํ๋ class ์ ๋ํด์๋ ์ ๋ง์ถ์ง๋ง ์ด๋ scene graph ์์ฑ ๊ด์ ์์๋ ์๋ฏธ๊ฐ ์ ๊ณ , 'standing on'๊ณผ ๊ฐ์ tail class์ ์กด์ฌํ๋ relation์์๋ ๋ชจ๋ธ์ด ์ ํ์ตํ์ง ๋ชปํ์ง๋ง, ์ด๋ visual context๋ฅผ ์ ํํํ๋ ์ค์ํ relation ์ ๋๋ค. ๋ฐ๋ผ์, State-of-art SGG ์ฐ๊ตฌ๋ค์ unbiased SGG๋ฅผ ๋ง๋ค๊ณ ์ ํฉ๋๋ค. ๊ทธ๋ค์ ๋๊ฒ, 1) data resampling ์ ํตํด ๋ชจ๋ธ์ bias๋ฅผ ์ค์ฌ์ฃผ๊ฑฐ๋, 2) re-weight loss ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ตํ๊ณ , ๋๋ 3) transfer learning framework ๋ฅผ ์ด์ฉํ์ฌ, ์ง์์ ์ ๋ฌํด์ฃผ๋ ๋ฐฉ์์ผ๋ก bias ๋ฌธ์ ๋ฅผ ์ํ ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ 3) ๊ณผ ์ฐ๊ด๋ ์ฐ๊ตฌ๋ผ๊ณ ํ ์ ์๊ฒ ์ต๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ์ LIMITATION
์ฒซ์งธ, language semantic ์ ํ์ตํ ๋ concat ๊ณผ ๊ฐ์ด ๋จ์ํ ๋ฐฉ์์ ์ฌ์ฉํ๋ค ๋์งธ, ๊ธฐ์กด์ Unbiased Training ๊ธฐ๋ฒ์ Tail์ overfit ๋์ด Head ํผํฌ๋จผ์ค๋ฅผ ๋๋ฌด ํฌ์ํ๋ค
๋ณธ ์ฐ๊ตฌ์ IDEA
์ฒซ์งธ, Multi-Modal Learning ์์์ ์ํคํ ์ณ๋ฅผ ๊ฐ์ ธ์, language semantic์ ๋ณด๋ค ํจ์จ์ ์ผ๋ก ์ถ์ถ ๋์งธ, Class Incremental Learning ์์์ Expert Training ๊ธฐ๋ฒ์ ์ฐจ์ฉํ์ฌ, Head Tail ๋ชจ๋์์ ์ฐ์ํ ์ฑ๋ฅ์ ๊ฐ์ง๋ SGG ๋ชจ๋ธ Training ๊ธฐ๋ฒ ์ ์
3. Method
์๋ ๊ทธ๋ฆผ์, ์ ์๋ ๋ชจ๋ธ์ ์ ์ฒด์ ์ธ ์ํคํ ์ณ ๊ตฌ์กฐ์ ๋๋ค.

Proposal Network ๋ฅผ ํต๊ณผํ์ฌ, ์ด๋ฏธ์ง์์ Visual Feature(Bounding Box, convolutional Feature), Language Fature (Class Label word) ๋ฑ์ ์ถ์ถํฉ๋๋ค.
Visual Feature ์ Language Feature๋ฅผ ํตํด ๊ฐ๊ฐ Object์ Relation์ Emedding์ Encoding ํฉ๋๋ค. ์ด ๋ Encoding ์ ์ํด ์ฌ์ฉ๋๋ ๊ตฌ์กฐ๊ฐ ๋ณธ ๋ ผ๋ฌธ์ ์ฒซ๋ฒ์งธ contribution์ธ Stacked hybrid attention ์ ๋๋ค. ๋ ์์ธํ๊ฑด ๋ค์์ ๋ค๋ฃจ๋๋ก ํ๊ฒ ์ต๋๋ค.
Encoder์์ ์ป์ด๋ธ Embeeding์ ํตํด์, Object์ Relation ์ Decoder๋ฅผ ๊ฐ๊ฐ ํ์ตํฉ๋๋ค. ์ฌ๊ธฐ์ ๋จ์ํ Classifier ๋ฅผ ํ์ตํ๋ค๊ณ ์ดํดํ๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค. ๋ค๋ง, ๊ธฐ์กด์ ์ฐ๊ตฌ์์ ์ฐจ์ด์ ์ Relation decoding part ์ Group Collaborative Learning ์ ๋๋ค. ์ด ํํธ๋ Relation์ Class Imabalance๋ฅผ ์ํํ๊ธฐ ์ํ ๋ชจ๋๋ก, ๋ณธ ๋ ผ๋ฌธ์ ๋๋ฒ์งธ Contribution ์ ๋๋ค. ์ด ๋ํ ๋ค์์ ์์ธํ ๋ค๋ฃจ๋๋ก ํ๊ฒ ์ต๋๋ค.
Stacked Hybrid-Attention (SHA)
SHA๋ ์์ ์ธ๊ธํ๋๋ก, ๊ธฐ์กด์ concatenation, summation ํ์ฌ visual/language feature๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด, ๋ ์ฌ์ด์ inter-modal / intra-modal ๊ด๊ณ๋ฅผ ์ก์๋ด๋๋ฐ ๋ถ์ถฉ๋ถํ๋ค๋ ๋ฐ์์ ์ถ๋ฐํฉ๋๋ค. ๋ ๊น๊ฒ ์๊ฐํด๋ณด๋ฉด, visual feature๋ค ์ฌ์ด (์ฌ๋ ์ด๋ฏธ์ง <-> ๋ง ์ด๋ฏธ์ง)์์ ์กด์ฌํ๋ ๊ด๊ณ๊ฐ ์๊ณ , ๋จ์ด๋ค ๋ผ๋ฆฌ์ ๊ด๊ณ ('human' word <-> 'horse' word) ์ ๊ด๊ณ๊ฐ multi-modal ์ ํํ๋ก ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ๋จ์ summation์ด ์ข์ง ์๋ค๋ ๊ฒ ์ ๋๋ค. SHA๋ ๊ธฐ์กด์ multimodal learning ์์์ architecture๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์์ฃผ ์ฝ๊ฒ ์ดํดํ ์ ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ์ด SHA์ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ ๊ทธ๋ฆผ์ ๋๋ค.

SA ๋ชจ๋๊ณผ CA ๋ชจ๋์ด ์๋๋ฐ ์ด ๋ ๋ชจ๋ ๋ค Multe-Head Attention ๋ชจ๋์ ์ฌ์ฉํ ๊ฒ ์ ๋๋ค. ๋์ ์ฐจ์ด๋ SA ๋ชจ๋์ ๊ฒฝ์ฐ intra-modal refinement๋ฅด ๋ชฉ์ ์ผ๋ก, ๊ฐ์ feature (image๋ฉด image) ๋ผ๋ฆฌ ๋ฃ์ ๋ชจ๋์ด๊ณ , CA ๋ชจ๋์ ๊ฒฝ์ฐ ๋๋ค ๊ฐ์ด ๋ฃ์ด์ semantic ์ ์ถ์ถํ cross attention ๋ชจ๋ ์ ๋๋ค. ์ด๋ฅผ ํตํด, ๋ณธ ๋ ผ๋ฌธ์ Feature๋ฅผ ๋ ์ ํ์ฉํ์ฌ context๋ฅผ ๋ชจ๋ธ๋งํ ์ ์๋ค๊ณ ์ด์ผ๊ธฐ ํฉ๋๋ค.
Group Collaborative Learning (GCL)
Group Collaborative Learning ๋ ๊ธฐ์กด relation ์ class imabalance๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ class incremental learning์ ๊ตฌ์กฐ์ ์ฐฉ์ํ์ฌ, SGG ์ฐ๊ตฌ์ ์ ์ฉํ ์ฌ๋ก๋ก ์ดํดํ ์ ์์ต๋๋ค. ์ด๋ป๊ฒ Bias๋ฅผ ํด๊ฒฐ ํ ์ ์๋์ง ์์ธํ ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. ์ฐ์ ์๋ Group Collaborative Learning์ ๊ทธ๋ฆผ์ ๋จผ์ ๋ณด๊ฒ ์ต๋๋ค.

๊ทธ๋ฆผ์ ๋ณด๋ฉด, ํฌ๊ฒ Predicate Class Grouping ~ Collaborative Knowledge Distillation ์์ผ๋ก ์ฌ๋ฌ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋ฉ๋๋ค. ์ด Class Incremental Learning์ ํต์ฌ ์์ด๋์ด๋ฅผ ์์ฝํ๋ฉด, ''์ฃผ์ด์ง Data ๊ฐ Imbalanced ํ๋๊น, balanced ํ ์ํฉ์์ ์ฌ๋ฌ ๋ชจ๋ธ (์ฌ๋ฌ Expert) A, B, ..., E ๋ฅผ ๊ฐ๊ฐ ๋๋์ด ํ์ตํ์. ๊ทธ๋ฌ๋ฉด A, B, C , D, E ๊ฐ๊ฐ์ ๋ชจ๋์ ๊ฐ๊ฐ ์ ๋ฌธ์ ์ผ๋ก ์ ์์ธกํ๋ class ๊ฐ ์๊ธฐ๊ณ , ๊ทธ ์ง์์ ํ ๋ชจ๋ธ์๊ฒ ๊ณต์ (์ ์ด, knowledge distillation) ํ์ฌ, ๋ชจ๋ class ์ ๋ํด ์ ๋ง์ถ ์ ์๋ ํ๋์ ๋ชจ๋ธ์ ๋ง๋ค์'' ์ ๋๋ค.
๋ค์ ๋ณต์กํ ๋ง๋ก ๋ค๋ฆด ์ ์๋๋ฐ, ์ ๋ฌธ๊ฐ ์ฌ๋ฌ๋ช ์ ๋๋์ด์ ๋ง๋ค๊ณ , ์ ๋ฌธ๊ฐ์ ์ฌ๋ฌ ์ง์์ ํ ํ์์๊ฒ ์ฃผ์ ํด์ฃผ์๋ ๊ฒ ์ ๋๋ค.
Step 1. Predicate Class Grouping. ์ ๋ฌธ๊ฐ๋ฅผ ๋ช๋ช ๋์ง๋ฅผ ์ ํ๋ ๊ฒ์ ๋๋ค. All Classes์ Distribution์ด ๋งค์ฐ Long-tail ์ด๋ผ Imabalance ๊ฐ ์ฌํ์ง๋ง, ์ด๋ฅผ sorting ํ์ฌ ์์์๋ถํฐ ์๋ผ Group์ ๋ง๋ค๋ฉด, ์๋์ ์ผ๋ก Balanceํ๊ฒ ๋ฉ๋๋ค. ์ฆ, ํ๋ relation ์ Group 1, ํ๋์ + ์ด๋ก์ relation์ Group 2, ... ์ด๋ฐ์์ผ๋ก ์ด K ๊ฐ์ Group์ ๋ง๋ญ๋๋ค. ์ด ๊ฐ๊ฐ์ Group ๋ด์์๋ ์๋์ ์ผ๋ก Balanced distribution์ ๊ฐ๊ฒ ๋ฉ๋๋ค.
Step 2. Balanced Sample Preparation ์์๋, Group ๋ด์์ ์ ๊ฒ ๋ฑ์ฅํ๋ Class๋ฅผ ์ข๋ ๋ณผ์ ์๋๋ก ํด์ฃผ๋ ๊ฒ ์ ๋๋ค. ์ด ๋์๋ Under Sampling ๋ง ์ ์ฉํ๋ฉฐ, ์ ๊ฒ ๋ฑ์ฅํ๋ Class๋ ์กฐ๊ธ๋ง Drop ํ๊ณ , ๋ง์ด ๋ฑ์ฅํ๋ Class๋ฅผ ๋ง์ด Drop ํ์ฌ ๊ทธ๋ฃน๋ด์์์ Balance๋ฅผ ์ ๊ฒ ๋ฑ์ฅํ๋ ์ ๋ค์๊ฒ ๋ ์ด์ ์ ๋๋๋ก ํฉ๋๋ค.
Step 3. Class Probability Prediction/Parallel Classifier Optimization. ๊ธฐ์กด, Classifier๋ฅผ ํ์ตํ๋ ๊ฒ๊ณผ ๋์ผํฉ๋๋ค. Cross Entropy๋ฅผ ์ฌ์ฉํ์ฌ, ์ด K ๊ฐ์ ๊ทธ๋ฃน์ ๋ํ์ฌ ๊ฐ๊ฐ Classifier๋ฅผ ํํํ๊ฒ ํ์ตํฉ๋๋ค.
Step 4. Collaborative Knowledge Distillation. ์ด์ ๊ฐ๊ฐ์ Classifier ๋ ์ ๋ฌธ์ ์ธ ์ง์์ ๋ณด์ ํ๊ณ ์์ต๋๋ค. Group 1์ Head Class ์ ์ง์์ ๋ง์ด ๊ฐ์ง๊ณ ์์ ๊ฒ์ด๊ณ , Group K๋ Tail class ์ ์ง์์ ๋ง์ด ๊ฐ์ง๊ณ ์์ ๊ฒ์ด๋ฉฐ, ๊ทธ ์ฌ์ด์ Classifier ๋ Body Class์ ์ง์์ ๊ฐ์ง๊ณ ์์ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ค์ ์ธ์ ๋๊ณ , KL-divergence Loss๋ฅผ ํ์ตํ์ฌ, ์ง์์ ์ ์ดํด ์ค๋๋ค. ์ง์์ ์ ์ด ์์๋ ํ์ ์คํ ๋ค์์ ์ค๋ช ํ๊ฒ ์ต๋๋ค. ์ฐ์ Adjacency ๋ฐฉ์์ ์ค๋ช ํ์๋ฉด, 1๋ฒ Clasifier ๋ 2๋ฒ Classifier ์๊ฒ ์ง์์ ์ฃผ๊ณ , 2๋ฒ์ 3๋ฒ์๊ฒ.. ์ฒด์ธ ํ์์ผ๋ก ์ง์์ ์ ํํด์ค๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์ต์ข ์ ์๋ K ๋ฒ์งธ classifier ๋ ๋ชจ๋ ์ง์์ ์์ฐจ์ ์ผ๋ก ์ ๋ฌ ๋ฐ์, Head~ Tail ๋ชจ๋๋ฅผ ์ ๋ง์ถ ์ ์๋ Classifier๋ฅผ ์ป๊ฒ ๋ฉ๋๋ค.
4. Experiment & Result
์คํ์์๋ ๊ธฐ์กด์ ์คํ ์ธํ ์์, ์ ์๋ ๋ชจ๋ธ์ด ์ผ๋ง๋ ํจ๊ณผ์ ์ธ์ง๋ฅผ ๊ฒ์ฆํ๊ณ , ๊ฐ๊ฐ์ ๋ชจ๋ธ Component ๊ฐ ํจ๋ ฅ์ด ์์๋์ง ๊ฒ์ฆํฉ๋๋ค.
Metric
Unbiased SGG์ ๊ฒฝ์ฐ ํ๊ฐ ๋ฉํธ๋ฆญ mR@K ์ ๋๋ค. top-K triplet (<subject, relation, object>) ๋ฅผ ๋ชจ๋ธ์ด ์ถ์ ํ์ ๋, ์ค์ GT triplet ์์ ์ผ๋ง๋ ๋ง์ถ์๋์ง๋ฅผ ํ๊ฐํฉ๋๋ค. ์ ์ฒด ๊ฐ์์ ํ๊ท ์ ์ฌ๋ฉด R@K, class ๋ณ R@K ๋ฅผ ์ฌ๊ณ Class๋ก ๋๋์ด์ฃผ๋ฉด meanR@K(mR@K) ๊ฐ ๋ฉ๋๋ค.
Task
Task๋ ๋ค์๊ณผ ๊ฐ์ 3๊ฐ์ง ์ ๋๋ค.
SGDET - Image -> Object detect / object classification / predicate classification ์ํ.
์ ํ์ ์ผ๋ก ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋, Graph๋ฅผ ์์ฑํ๋ ํ์คํฌ ์
๋๋ค. ์ธ๊ฐ์ง ์ค์ ๊ฐ์ฅ ์ด๋ ค์ด ํ์คํฌ๋ผ๊ณ ๋ณผ ์ ์์ผ๋ฉฐ,
๋ง ๊ทธ๋๋ก ์ด๋ฏธ์ง๊ฐ ๊ทธ๋ํ ์์ฒด๋ก ๋ณํํ๋ ๋งตํ์ ๋ฐฐ์ฐ๋ ๊ฒ ์
๋๋ค. ๋ฐ๋ผ์, Object Detector, Graph Edge Prediction, Object, relation classifier์
๋ชจ๋ ์ฑ๋ฅ์ ๋ค ์ฒดํฌํ๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๊ฒ ์ต๋๋ค.SGCLS - Ground Truth Box -> object classification / Predicate classification ์ํ
์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๊ณ , ์ค์ Bounding Box๊ฐ ์ฃผ์ด์ก์ ๋ Scene Graph๋ฅผ ๋ง๋๋ ํ์คํฌ ์
๋๋ค. Object Detector์ Dependentํ์ง ์๊ธฐ ๋๋ฌธ์
์์ SGDET Task๋ณด๋ค๋ ์ด์ง ์ฌ์์ง Task ์
๋๋ค. ์ค์ง Object, Predicate Classifer์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ธฐ์ค ์
๋๋ค.PREDCLS - Ground Truth Box, object category -> Predciate Classification ์ํ
๋ง์ง๋ง์ผ๋ก, ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๊ณ , ์ค์ Bounding Box์ Object์ Classs๊น์ง ๋ฌด์์ธ์ง ์ฃผ์ด์ก์ ๋ Scene Graph๋ฅผ ๋ง๋๋ ํ์คํฌ ์
๋๋ค.
Object Detector์ Dependentํ์ง ์๊ณ , Object์ Class๋ ์ด๋ฏธ ์๊ธฐ ๋๋ฌธ์ ๊ฐ์ฅ ์ฌ์ด ํ์คํฌ์
๋๋ค. ์ค์ง, Predicate Classifer์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ธฐ์ค ์
๋๋ค.Result

์ ํ๋ mR@K ๋ฅผ K=20, 50, 100 ์ ๋ฐ๋ผ ๊ฐ๊ฐ์ Task์ ๋น๊ตํ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ SHA์ GCL ์ ์ ์ํ์๋๋ฐ์, SHA๋ ๋ชจ๋ธ ์ธ์ฝ๋์ ์ํคํ ์ณ ์ ์์ด๋ผ ๋ณธ ๋ ผ๋ฌธ์๋ง ํด๋นํ์ง๋ง, GCL ์ ๊ฒฝ์ฐ Training scheme ์ ์ ์ํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ Model agnostic (๊ธฐ์กด์ ๋ค๋ฅธ ๋ ผ๋ฌธ๋ค์ ๋ํด์๋ ์ ์ฉํ ์ ์์) ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์ LSTM ๊ธฐ๋ฐ์ผ๋ก Context๋ฅผ ์ถ์ ํ์ฌ Relation์ ์์ธกํ๋ Motif ์ TreeLSTM ๊ตฌ์กฐ๋ฅผ ํตํด ์์ธกํ๋ VCTree ์ด 2๊ฐ์ง์ GCL ์ ์ ์ฉํ ๊ฒ๋ ๊ฐ์ด ์คํ์ ์งํํ๊ฑธ ๋ณผ ์ ์์ต๋๋ค. ๊ฒฐ๊ณผ๋ฅผ ํด์ํด๋ณด๋ฉด, GCL ์ ์ฌ์ฉํ๋ฉด ๊ธฐ์กด์ ๋ชจ๋ธ์ mR@K ๊ฐ๋ ํฌ๊ฒ ํฅ์ ๊ฐ๋ฅํ๋ฉฐ, ํนํ๋ ์ ์๋ Self-Attention ๊ธฐ๋ฐ ๋ชจ๋ธ์์, SHA ๋ ์ด์ด์ GCL๋ฅผ ํจ๊ป ์ฌ์ฉํ ๊ฒ์ด ๊ฐ์ฅ ์ฐ์ํ์์ ํ์ธํ ์ ์์์ต๋๋ค.

์ ํ๋ ์ ์ ๋ ๋ ผ๋ฌธ์ Component์ ์๊ฒ ์๋ผ ablation study๋ฅผ ํ๊ณ , ๊ฐ ๋ชจ๋ธ์ ์ปดํฌ๋ํธ์ ํจ์ฉ์ฑ์ ์ ์ฆํ๋ ๋จ๊ณ๋ก ๋ณผ ์ ์๊ฒ ์ต๋๋ค. GCL์ ๋นผ๋ฒ๋ฆฌ๋ฉด, ๋ชจ๋ธ์ด ์ฝ๊ฒ biased ๋๋๊ฒ์ ํ์ธ ํ ์ ์๊ณ , Knowledge Distillation ์ ํตํด ๋ชจ๋ธ์ ํ๋๋ก ํฉ์ณค์ ๋, ์ง์์ด ์ ์ด ๋๋ฉด์ ์ฑ๋ฅ์ด ๋์ฑ ํฅ์๋๋ ๊ฒ์ ๋ณด์, Transfer learning์ด ํจ๊ณผ์ ์ด์์์ ์ ์ ์์ต๋๋ค. ์ดํด ๋นํด ์ฑ๋ฅํฅ์์ด ์ ์ง๋ง SHA์ SA์ CA ๋ ์ด์ด๋ ๊ฐ๊ฐ ํจ๋ ฅ์ด ์์์์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.

์ ๊ทธ๋ฆผ์ GCL ๊ตฌ์กฐ๋ฅผ ์ค์ ์ฌ๋ฌ ํ๋ผ๋ฏธํฐ์ ๋ํด์ ์งํํด๋ณด๊ณ , ์ด๋ป๊ฒ ์งํ๋๋์ง ์ข๋ ๊ตฌ์ฒดํ๋ ์์๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒ ์ ๋๋ค. ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ฉฐ, ๊ฐ๊ฐ์ group์ ์๋ฅผ ๋ฐ๊พธ์ด๊ฐ๋ฉฐ ๋ชจ๋ธ์ ํ์ตํด ๋ณผ ์ ์์ต๋๋ค.
์ด์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.

Adjacency ๋ฐฉ์๋ณด๋ค Top down ๋ฐฉ์์ด ํจ๊ณผ์ ์ธ ๊ฒ์ ์ ์ ์๊ณ , ๊ทธ๋ฃน์ ์ด๋ป๊ฒ ๋๋๋์ ๋ฐ๋ผ์๋ ์ฑ๋ฅ์ ์ฐจ์ด๊ฐ ๊ฝค ๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ํ์ง๋ง ๋ค๋ฅธ ๊ทธ๋ฃน์์๋, ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋์๋ ์ฌ์ ํ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ๋ ํ๋ค์.
5. Conclusion
๋ณธ ๋ ผ๋ฌธ์์๋ SGG ์์ Visual/Language Feature ์ Multi-Modality ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , Class Imbalanced ๋ฌธ์ ๋ฅผ ํ ์ ์๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์์ต๋๋ค
Take home message
SGG ๋ชจ๋ธ๋ค์ด ๊ฐ๊ด์ ๋ฐ๊ณ ์๋๋งํผ, ๋ค๋ฅธ ๋ถ์ผ์์์ ์ฐ๊ตฌ๊ฐ SGG๋ก ์ฐจ์ฉ๋๋ ๊ฒฝ์ฐ์ ๋ ผ๋ฌธ๋ค์ด ๋ง์ด Accept ๋๋ ์ถ์ธ๋ก ๋ณด์ ๋๋ค. SGG ์ํฉ์ ๋ง๊ฒ ์ ์ฉํ ์ ์๋ ๊ธฐ์กด Vision ์ฐ๊ตฌ์์์ ์์ด๋์ด๋ค์ด ๋ฌด์์ด ์๋์ง ์ดํด๋ณด๊ณ , SGG๋ฅผ ์ฐ๊ตฌํ๋ค๋ฉด, ์ข์ ๊ธฐ์ฌ๋ฅผ ํ ์ ์๋ ์ฐ๊ตฌ๊ฐ ๋ง์ด ๋จ์์๋ ๋ถ์ผ๋ก ์๊ฐ ๋ฉ๋๋ค.
Author
์ค๊ฐํ (Kanghoon Yoon)
Affiliation (KAIST Industrial Engineering Department)
(optional) ph.D students in DSAIL
Reference & Additional materials
Visual translation embedding network for visual relation detection
Representation learning for scene graph completion via jointly structural and visual embedding
Neural Motifs: Scene Graph Parsing with Global Context
Graph R-CNN for Scene Graph Generation.
GPS-net: Graph property sensing network for scene graph generation
Last updated