Are Transformers More Robust Than CNNs?
Y Bai et al., / Are Transformers More Robust Than CNNs? / Neurips-2021
1. Problem Definition
Vision Transformer(ViT) Network๋ CNN๋ณด๋ค ๊ฐ๋ ฅํ๊ณ robustํ๋ค๊ณ ์๋ ค์ ธ์๋ค.
ํ์ง๋ง ์ด ์ฐ๊ตฌ์์๋ ๋ช๊ฐ์ง ์คํ์ ํตํด์ ๊ธฐ์กด์ ์ด๋ฐ ๋ฏฟ์์ ์๋ฌธ์ ์ ๊ธฐํ๊ณ ๊ณต์ ํ๊ฒ ์ค๊ณ๋ ์คํ์กฐ๊ฑด์์ ๊ฐ๊ฑด์ฑ์ ๋ค์ ์กฐ์ฌํ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก adversarial attack์ CNN๋ ์ถฉ๋ถํ ๊ฐ๊ฑดํ ์ ์์์ ํ์ธํ๋ค
๊ฐ๊ฑด์ฑ์๋ํ ์คํ ๋์ค์, ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ pre-training์ด transformer๊ฐ CNN์ ์ฑ๋ฅ์ ๋๋๋ฐ ๊ผญ ํ์ํ ๊ฒ์ ์๋๋ ๋ถ๊ฐ์ ์ผ๋ก ํ์ธํ๋ค.
2. Motivation
Pure-attention based model์ธ transformer๊ฐ inductive bias์์ด CNN์ ์ฑ๋ฅ์ ๋ฐ์ด๋์๊ณ Detection, instance segmentation, sementic segmentation์์๋ ์ฐ๊ตฌ๋๊ณ ์๋ค
๋ํ ์ต๊ทผ ์ฐ๊ตฌ๋ค์์ Transformer๋ OOD์ ์ ๋์ ๊ณต๊ฒฉ์ CNN๋ณด๋ค ๊ฐ๊ฑดํจ์ด ๋ฐํ์ก๋ค
ํ์ง๋ง, ์ ์๋ ์ด๋ฐ ๊ฒฐ๊ณผ๊ฐ unfairํ ํ๊ฒฝ์์ ๋์ถ๋์๋ค๊ณ ์ฃผ์ฅํ๋ค
#params๊ฐ Transformer์ชฝ์ด ๋ง์๊ณ training dataset, epochs and augmentation ์ ๋ต ๋ฑ์ด ๋์ผํ๊ฒ ๋ง์ถฐ์ง์ง ์์๋ค(๋ค์ ์คํ์์ ํ์ธํ ์ ์๋ฏ์ด ViT์๊ฒ ์ ๋ฆฌํ ์กฐ๊ฑด์ด ๋ค์ ์๋ค)
์ด ์ฐ๊ตฌ์์ ๊ณต์ ํ ๋น๊ต๋ฅผ ํตํด ์ ๋์ ๊ณต๊ฒฉ๊ณผ OOD์ ๋ํ ๊ฐ๊ฑด์ฑ์ ํ์ธํ ๊ฒ์ด๋ค
CNN์ด Transformer์ training recipes๋ฅผ ๋ฐ๋ฅธ๋ค๋ฉด perturbation๊ณผ patch์ ๊ธฐ๋ฐํ attack์ ๋ ๊ฐ๊ฑดํจ์ ๋ฐ๊ฒฌํ๋ค
์ฌ์ ํ Transformer๊ฐ OOD์ ๊ฐ๊ฑดํจ์ ๋ฐ๊ฒฌํ๊ณ ์ด๋ pre-training์ด ์์ด๋ ๊ฐ๋ฅํ๋ค. Ablation study์์ self-attention์ด ์ด๋ฐ ํ์์ ์ด์ ์์ ๋ฐ๊ฒฌํ๋ค
๐ก ์ด ์ฐ๊ตฌ๊ฐ ๋ค๋ฅธ Architecture๋ผ๋ฆฌ์ ๊ฐ๊ฑด์ฑ์ ๋น๊ตํ๋ ํ์ค์ด ๋๊ธธ ๋ฐ๋๋ค๊ณ ์ ์๋ ๋ฐํ๊ณ ์์ต๋๋ค
3. Method
์ด ์ฑํฐ์์๋ ๋ค์๊ณผ ๊ฐ์ ๋ด์ฉ์ ๋ค๋ฃฌ๋ค. ๋ชจ๋ ์คํ์์ ์์ฃผ ๋ฑ์ฅํ ๋ด์ฉ์ด๋ฏ๋ก ์ฃผ์๊น๊ฒ ์์งํ๊ธธ ๋ฐ๋๋๋ค.
CNN๊ณผ ViT์ ํ์ต์กฐ๊ฑด ๋น๊ต
๋ค์ํ Attack๊ณผ OOD Dataset
3.1 Training CNNs and Transformer
ํ์ต ํ CNN์ ViT์ Top-1 Acc๋ 76.8, 76.9๋ก ๋งค์ฐ ๋น์ทํ ์ฑ๋ฅ์ ๋
CNN
ResNet-50์ด ViT์ ๋น์ทํ #params๋ฅผ ๊ฐ์ง๋ฏ๋ก ์ฑํ
ImageNet์ ํ์ต
๊ธฐํ ํ์ต ๋ํ ์ผ(SGD-momentum, 100eph, L2๊ท์ )
ViT
์ธ๋ถ ๋ฐ์ดํฐ์์ด ์ข์ ์ฑ๋ฅ์ ๋ธ DeiT์ recipe๋ฅผ ๋ฐ๋ผ์ DeiT-S(#params๊ฐ ResNet50๊ณผ ๋น์ท)๋ฅผ default ViT๋ก ์ฑํํจ
AdamW, 3๊ฐ์ Aug(Rand, Cut, MixUp)
ResNet๊ณผ ํ์ต ํ๊ฒฝ์ ๋ง์ถ๊ธฐ์ํด Erasing, Stochastic Depth, Repeated Aug๋ฅผ ์ฌ์ฉํ์ง ์์. DeiT๋ 300ephํ์ต๋์ง๋ง ๊ฐ์ ์ด์ ๋ก 100eph๋ง ํ์ต
3.2 Robustness Evaluations
3.2.1 Adversarial Attack
PGD
PGD(Projected Gradient Descent) : ์ฌ๋์ ํ์ธํ๊ธฐ ์ด๋ ต์ง๋ง ๊ธฐ๊ณ๋ฅผ ์์ผ ์ ์๋ ์ญ๋

TPA
TPA : texture๊ฐ ์๋ patch๋ฅผ ๋ถ์ฌ ๋คํธ์ํฌ๋ฅผ ์์ด๋ attack


3.2.2 OOD
๋ ผ๋ฌธ๊ณผ PaperWithCode(PWC)์ ์๋ ์ค๋ช ์ด ์กฐ๊ธ ๋ค๋ฅธ๋ฐ PWC๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ์๋ค
mageNet-A : ResNet model์ด ๊ฐํ ํ์ ์ผ๋ก ํ๋ฆฐ ์ด๋ฏธ์ง์ . ๊ธฐ๊ณํ์ต ๋ชจ๋ธ์ด ์ด๋ ค์ํ๋ ์ฆ ํ์ต ๋ถํฌ๋์ ์ข ๋ค๋ฅธ ์ด๋ฏธ์ง๋ค์ ๋ชจ์์ด๋ค. ์ค์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด ์ ๊ทธ๋ฐ ํ๋ฆฐ ๋ต์ ๋๋์ง ์ ๊ฒ๋ ๊ฐ๋ค
ImageNet-C : ์ด๋ฏธ์ง์ ๋ค์ํ Augmentation์ด ์ ์ฉ๋ ์ด๋ฏธ์ง์
Stylized ImageNet : ์ด๋ฏธ์ง๋น ๋ค์ํ texture๋ฅผ ์ ํ ๋ฐ์ดํฐ์
4. Experiment
์คํ์ ํฌ๊ฒ ๋ ๊ฐ์ ํํธ๋ก ๊ตฌ์ฑ๋์ด์์ต๋๋ค.
์ ๋์ ๊ณต๊ฒฉ์ ๋ํ ๊ฐ๊ฑด์ฑ
OOD Sample์ ๋ํ ๊ฐ๊ฑด์ฑ
4.1 Adversarial Robustness
5000์ฅ์ ImageNet ๊ฒ์ฆ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์์
4.1.1 Robustness to Perturnation-Based Attacks

AutoAttack์ ์ญ๋์ ๋์ด๋ ์์ ํ fooled
๊ทธ๋ฌ๋ ๋ ๋ชจ๋ธ์ด ์ ํ Adversarial training๋์ง ์์์์ ๊ธฐ์ตํ์
Adversarial Training
parameters
max
expectation
perturbation
data
dataset
์ญ๋์ ์ฃผ์ด์ Loss๋ฅผ ์ต๋ํํ๋ sample
์์์ ์ต์ parameter๋ฅผ ์ฐพ์ผ๋ผ๋ ๋ด์ฉ์ ์์์ด๋ค
์ ํํ๋ PGD๊ฐ ์ฌ์ฉ๋์๋๋ฐ ๋ฐ๋ณต์ ์ธ step์ ํตํด์ ์ต์ ๊ณต๊ฒฉ์ง์ ์ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ผ ์ดํดํ๋ฉด ๋๊ฒ ๋ค
Adversarial Training on Transformers
CNN์ ๋ฌธ์ ์์์ผ๋ Transformer๋ ๊ฐํ Augmentation์ด PGD์ ํจ๊ป ์ ์ฉ๋๋ collapse๋์ด๋ฒ๋ฆฌ๋ ๋ฌธ์ ๊ฐ ์์๋ค
๋ฐ๋ผ์ Augmentation์ eph์ฆ๊ฐ์ ๋ฐ๋ผ ์ ์ ๊ฐ๋๋ฅผ ๋์ฌ๊ฐ๋ฉฐ ํ์ตํ ๊ฒฐ๊ณผ 44%์ robustness๋ฅผ ์ป์๋ค
Transformers with CNNsโ Training Recipes
CNN์์ ์ฌ์ฉ๋ ํ์ต์กฐ๊ฑด(M-SGD, ๊ฐํ Augmentation ๋ฐฐ์ )์ Transformer์ ์ฌ์ฉํ๋๋ ํ์ต์ด ์์ ๋๊ธด ํ์ง๋ง clean data์ ๋ํ ์ฑ๋ฅ๊ณผ PGD-100์ ๋ํ ๋ฐฉ์ด์จ์ด ํ๋ฝํ๋ค
์ด๋ฌํ ํ์์ด ๋ํ๋ ์ด์ ๋ ๊ฐํ Augmentation์ ๊ท์ ํด overfitting์ด ์ฝ๊ฒ ์ผ์ด๋ฌ๊ธฐ ๋๋ฌธ์ด๊ณ ์ด์ ์ฐ๊ตฌ์์ ๋ฐํ์ก๋ฏ์ด Transformer ์์ฒด๊ฐ SGD์๊ฐ์ optimizer์์ ์ต์ ์ ์ ์ ์ฐพ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ค
CNNs with Transformersโ Training Recipes
ResNet-50 + ReLU์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ViT๋ณด๋ค ๋ ๊ฐ๊ฑดํ๋ค. ์ด๋ฐ ์คํ๊ฒฐ๊ณผ์ ๋๋์ง ์๊ณ ์ ์๋ค์ ์๋ก์ด ์คํ์ ํด๋ณผ motivation์ ์ป์๋ค๊ณ ํ๋ค. Transformer์ recipes๋ฅผ CNN์ ์ ์ฉํด ๋น๊ตํด๋ณด๋ ๊ฒ์ด๋ค
Transformer๊ฐ ์ฐ๋ optimizer์ strong regularization๋ ๋ณ ํจ๊ณผ๊ฐ ์๊ฑฐ๋ ํ์ต์์ collapse๋ฅผ ์ผ์ผ์ผฐ๋ค
non-smoothํ ํน์ฑ์ ๊ฐ์ง ReLU๋ฅผ transoformer๊ฐ ์ฐ๋ GELU๋ก ๋์ฒดํ๋ค. ReLU๋ ์ ๋์ ๊ณต๊ฒฉ์ ์ทจ์ฝํ activation์์ด ์๋ ค์ ธ์๋ค
๊ทธ ๊ฒฐ๊ณผ ResNet-50 + GELU๋ DeiT์ ํ์ ํ๋ ์ ๋์ ๊ณต๊ฒฉ์๋ํ ์ฑ๋ฅ์ ๋ด์์ผ๋ฉฐ ์ด๋ ๊ธฐ์กด ์ฐ๊ตฌ์ ๊ฒฐ๋ก ์ ๋ฐ๋ฐํ๋ ๊ฒ์ด๋ค
4.1.2 Robustness to Patch-Based Attacks

default๋ก 4๊ฐ์ patch๋ก ๋์ ์ด๋ฏธ์ง์ ์ ์ฒด ๋ฉด์ ์ 10%์์ชฝ์ด ๋๊ฒ attackํ๋ค. ๋ ๋ชจ๋ธ ๋ชจ๋ TPA์ ๋ํ ์ ๋์ ํ์ต์ ํ์ง ์์๋ค. ๊ทธ ์ด์ ๊ฐ ์ข ํท๊ฐ๋ฆฌ๋๋ฐ ์ ๋์ ํ์ต์์ non-trivial ๊ทธ๋ฌ๋๊น, ์ฑ๋ฅ์ด ๋๋ฌด ์ข์์ ธ์ ๋น๊ต๊ฐ ์ด๋ ต๋ค๋ ์ทจ์ง๋ก ํด์ํ๋ค
Table 3์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด CNN์ Transformer์ ๊ฐ๊ฑด์ฑ์ ๋ฏธ์น์ง ๋ชปํ๊ณ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ฃผ์ฅ์ด ๋ง์๋ณด์ธ๋ค
ํ์ง๋ง ์ ์๋ค์ TPA์ ํน์ฑ์ ์ฃผ๋ชฉํ์ฌ ์๋ก์ด ์ง์ ์ ํ๋ค. TPA๋ ์ด๋ฏธ์ง์์ ์ธ์์ ์ธ patch๊ฐ ๋ถ๋ ํํ์ด๋ค. ์ด๋ patch๋ฅผ ์๋ผ ๋ถ์ด๊ฑฐ๋ ์ญ์ ํ๋ CutMix์ ์ ์ฌํ๋ฉฐ CutMix๋ ViT์๋ง ์ ์ฉ๋์๊ธฐ๋๋ฌธ์ ViT์๊ฒ TPA๊ฐ ๋น์ฐํ ์ ๋ฆฌํ task๋ผ๋ ๊ฒ์ด๋ค

๊ทธ์๋ํ ์ฆ๋ช ์ผ๋ก ViT์ ์ ์ฉ๋์๋ 3๊ฐ์ strong augmentation์ ์ ์ฉํด ResNet-50์ ํ์ต์์ผ TPA์๋ํ ์ฑ๋ฅ์ ์ดํ๋๋ table 4์ ๊ฐ์๋ค
๊ฐ์ค๋๋ก CutMix์ ์ ๋ฌด๊ฐ ์ฑ๋ฅ์ ํฌ๊ฒ ์ข์ฐํ๋ค
RandAug+CutMix์์ DeiT์ TPA์๋ํ ๊ฐ๊ฑด์ฑ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์๊ณ ์ด๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ์ฃผ์ฅํ patch-based ๊ณต๊ฒฉ์๋ํ transformer์ ๊ฐ๊ฑด์ฑ์ด CNN๋ณด๋ค ์ข๋ค๋ ์ฃผ์ฅ์ ๋ฐ๋ฐํ๋ค
4.2 Robustness on OOD Samples
์ด ์ฑํฐ์์๋ DeiT์ Recipes ์ค ์ด๋ค ๊ฒ์ ์ด๋ป๊ฒ ResNet์ ์ ์ฉํ ๊ฒ์ธ์ง ์ ํ ๋ค์ ResNet์ ํ์ต ํ ์ฑ๋ฅ์ DeiT์ ๋น๊ตํ๋ ๋ด์ฉ์ ๋ด๊ณ ์๋ค
4.2.1 Aligning Training Recipes

๋์ฉ๋ ๋ฐ์ดํฐ์ pre-training์์ด๋ ViT๊ฐ ๋ robustํ๋ค(ResNet-50* ์ ํ์ )
A Fully Aligned Version(Step 0)
ResNet-50* ์ DeiT์ recipe๋ฅผ ๋ฐ๋ผ opimizer(Adam-W), lr scheduler and strong augmentation์ ์ ์ฉํ์ง๋ง ResNet-50์ ๋นํด์ ๋์ ๋๋ ์ฑ๋ฅ ํฅ์์ ์์๋ค(Table 5)
๋ฐ๋ผ์ ์ธ ์คํ ์ ๊ฑฐ์ณ DeiT์ ์กฐ๊ฑด์ ๊ฐ์ดํ๋ ์ต์ ์ setup์ ์ฐพ์๋ณธ๋ค(Ablation)
Step 1 : Aligning Learning Rate Scheduler

Table 6์์, step decay๋ณด๋ค cosine schedule decay๋ฅผ ์ฐ๋ ๊ฒ์ด ์ฑ๋ฅ์ด ํฅ์๋์์ผ๋ฏ๋ก ์ฌ์ฉ
Step 2 : Aligning Optimizer
Table 6์์, Adam-W๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ResNet์ ์ฑ๋ฅ๊ณผ ๊ฐ๊ฑด์ฑ์ ๋ชจ๋ ํด์ณค๋ค. ๋ฐ๋ผ์ M-SGD์ฌ์ฉ
Step 3 : Aligning Augmentation Strategies

๋ค์ํ ์กฐํฉ์ ์กฐ์ฌํ๋๋ฐ ์ผ๋จ strong aug์ ์กด์ฌ๊ฐ OOD์์์ ์ฑ๋ฅ์ ํฅ์์ํด. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์ ์ผ ์ข์ ์ฑ๋ฅ์ ์ฌ์ ํ DeiT์๋ค
Comparing ResNet With Best Training Recipes To DeiT-S
Step์ ๊ฑฐ์ณ ์ธ๊ฐ์ง training recipe๋ฅผ ์กฐ์ฌํ์์๋ ResNet์ DeiT์ OOD์ฑ๋ฅ์ ๋ฐ๋ผ๊ฐ์ง ๋ชปํ๋ค
์ด๊ฒ์ Transformer์ CNN์ฌ์ด OOD์ฑ๋ฅ์ ๊ฐ๋ฅธ key๊ฐ training recipe์ ์์ง ์์ ์ ์์์ ์์ํ๋ค
Model Size

#params์ ๋ฐ๋ฅธ ๋น๊ต๋ ํ๊ธฐ์ํด ์๋ก์ด ์คํ์ ํ์๋ค. ResNet์ * ์ด ๋ถ์ ๊ฒ์ ์ธ ๊ฐ์ง recipe์ ๋ชจ๋ ์ ์ฉํ ๊ฒ์ด๊ณ Best๋ ์์์ ์ฐพ์ ์กฐํฉ์ด๋ค
์ ์ฒด์ ์ผ๋ก DeiT๊ฐ parameter ์์ ๋ณํ์๋ ์ ์ผ ์ข์ OOD์ฑ๋ฅ์ ๋ณด์๋ค
4.2.2 Distillation

๊ฒฐ๊ณผ1(T:DeiT, S:ResNet) : ์๋ ค์ง ์์๊ณผ ๋ค๋ฅด๊ฒ Student๊ฐ ๋ ๋์ ์ฑ๋ฅ. DeiT๊ฐ ๋ ์ข์ ์ฑ๋ฅ
๊ฒฐ๊ณผ2(T:ResNet, S:DeiT) : DeiT๊ฐ ๋ ์ข์ ์ฑ๋ฅ
4.2.1๊ณผ 4.2.2์ ๊ฒฐ๊ณผ๋ก ๋ฏธ๋ฃจ์ด๋ณผ ๋, DeiT์ ๊ฐ๋ ฅํ ์ผ๋ฐํ ์ฑ๋ฅ์ training setup๊ณผ knowledge distillation์ด ์๋ Transformer์ ๊ตฌ์กฐ ์์ฒด์์ ์จ๋ค๊ณ ํด์ํ ์ ์๋ค
4.2.3 Hybrid Architecture

Hybrid-DeiT๋ ResNet-18์ res_4 block์ output์ DeiT-Mini์๊ฒ ๋๊ฒจ์ฃผ๋ hybrid๋ชจ๋ธ์ด๋ค
CNN(ResNet)์ transformer๊ตฌ์กฐ๊ฐ ๋ํด์ง๋ ResNet-50๋ณด๋ค ๋ ๊ฐ๊ฑดํด์ก๋ค. ํ์ง๋ง pureํ transformer์์ฒด๋ณด๋ค๋ ๋ชปํ๋ค. ์ด๊ฒ์ Transformer์ self-attention mechanism์ด ๊ฐ๊ฑด์ฑ ํฅ์์ ํ์์ ์ธ ์์์์ ์ฆ๋ช ํ๋ค
4.2.4 300-Epoch Training


CNN๊ตฌ์กฐ๋ 100ephํ์ต๋๋๊ฒ ์ผ๋ฐ์ ์ด์ง๋ง Transformer๋ 300eph ์ ๋๋ก ๋ง์ด ํ์ต๋๋ค. ์ด๋ฐ ํํ์ฑ์ ๋ง์ถ์ด ํ์ตํ๋๋ Table 9์ ๊ฐ์๋ค
๋ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด์ ResNet์ clean acc๊ฐ DeiT๋ณด๋ค ๋์ 101,200์ ๊ฐ์ ธ์ ์คํํ๋ค. ์ญ์ DeiT๊ฐ ๋ ๋์ OOD์ฑ๋ฅ์ ๋ณด์๋ค
์ด๊ฒ์ผ๋ก Transformer๊ฐ CNN๋ณด๋ค OOD์ ๋ ๊ฐ๊ฑดํ๋ค๊ณ ๋งํ ์ ์๊ฒ ๋์๋ค
5. Conclusion
unfairํ ์กฐ๊ฑด์์ ์คํ๋๋ ์คํ์ ์ ์ ํ ์กฐ์น๋ฅผ ํตํด ๋น๊ตํ๋ Transformer๋ ์ ๋์ ๊ณต๊ฒฉ์์ CNN๋ณด๋ค ๊ฐ๊ฑดํ์ง ์์๋ค
๋ํ OOD์์์ Transformer์ฑ๋ฅ์ self-attention๊ณผ ๊ด๋ จ์ด ์์์ ํ์ธํ๋ค
์ด ์ฐ๊ตฌ๋ก transformer์ ๋ํ ์ดํด๊ฐ ํฅ์๋๊ณ transformer๊ณผ CNN์ฌ์ด ๊ณต์ ํ ๋น๊ต๊ฐ ๊ฐ๋ฅํด์ง๊ธธ ๋ฐ๋๋ค
๊ฐ์ธ์ ์๊ฒฌ์ผ๋ก..
ViT์ ๋ฑ์ฅ์ ๋ง์ ์ด์๋ฅผ ๋ณ์์ต๋๋ค. ์ฒ์ CNN์ดํ Image๋ถ๋ฅ๋ฅผ ์ํ ๊ทผ์์ ์ธ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์์๊ณ ๋ฌด์๋ณด๋ค ์ฑ๋ฅ์ด ์ข์์ต๋๋ค. ์ฌ์ง์ด ์ต๊ทผ ์ฐ๊ตฌ๋ค์์๋ ViT๊ฐ CNN๋ณด๋ค ๊ฐ๊ฑดํ๊ธฐ๊น์ง ํ๋ค๋ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ฉด์ Vision์ ์์ญ์ ์ด์ (์์ฒญ๋ pretrain dataset์ ๊ฐ์ง ์ฌ์ ์ฒด๊ฐ ํ์ตํ) ViT๊ฐ ๋ชจ๋ ๊ฐ์ ธ๊ฐ ๊ฒ์ด๋ผ๋ ์์์ ํ๊ธฐ๋ ํ์ต๋๋ค. ๋ฐ๋ผ์ ํ๊ณ์ ์ด๋ฐ ๋ฏฟ์ ์์ฒด์ ์๋ฌธ์ ๊ฐ์ง๊ณ ๋์ ํ๋๊ฒ ์ฌ์ด์ผ์ด ์๋์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. ์ด๋ฐ ์ฐ๊ตฌ๋ฅผ ๋ด๋์ ์ฐ๊ตฌ์๋ค์ ์ค๋ ฅ๊ณผ ์์ ๊ฐ์์ ๋ ํ๋ฒ ๊ฒธ์ํด์ผํจ์ ๋๋๋๋ค.
Author Information
ํ์ฑ๋ SungRae Hong
Master's Course, KAIST Knowledge Service Engineering
Interested In : SSL, Vision DL, Audio DL
Contact : sun.hong@kaist.ac.kr
6. Reference & Additional materials
Please write the reference. If paper provides the public code or other materials, refer them.
Github Implementation LINK
Last updated