AI/Google&DeepMind

Patch n' Pack: NaViT, 모든 종횡비 및 해상도를 위한 비전 트랜스포머

유로파물고기 2023. 7. 13. 23:39
반응형

https://arxiv.org/abs/2307.06304

 

Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

The ubiquitous and demonstrably suboptimal choice of resizing images to a fixed resolution before processing them with computer vision models has not yet been successfully challenged. However, models such as the Vision Transformer (ViT) offer flexible sequ

arxiv.org

1. 현재 컴퓨터 비전 모델에서 이미지를 고정된 해상도로 크기를 변경하는 일반적이고 비효율적인 방식을 성공적으로 반박한 적은 없습니다. 그러나 Vision Transformer(ViT)와 같은 모델들은 유연한 시퀀스 기반 모델링을 제공하며, 따라서 입력 시퀀스 길이가 다양하게 됩니다.

 

2. 우리는 NaViT(Native Resolution ViT)를 통해 이러한 장점을 활용하여 임의의 해상도와 종횡비를 가진 입력을 처리하며, 대규모 지도학습 및 대조적 이미지-텍스트 사전 학습에서 향상된 훈련 효율성을 보여줍니다.

 

3. NaViT는 이미지 및 비디오 분류, 객체 탐지, 의미론적 분할 등의 표준 작업으로 효율적으로 전환할 수 있으며, 강건성과 공정성 벤치마크에서 향상된 결과를 보여줍니다.