반응형
https://arxiv.org/abs/2307.06304
1. 현재 컴퓨터 비전 모델에서 이미지를 고정된 해상도로 크기를 변경하는 일반적이고 비효율적인 방식을 성공적으로 반박한 적은 없습니다. 그러나 Vision Transformer(ViT)와 같은 모델들은 유연한 시퀀스 기반 모델링을 제공하며, 따라서 입력 시퀀스 길이가 다양하게 됩니다.
2. 우리는 NaViT(Native Resolution ViT)를 통해 이러한 장점을 활용하여 임의의 해상도와 종횡비를 가진 입력을 처리하며, 대규모 지도학습 및 대조적 이미지-텍스트 사전 학습에서 향상된 훈련 효율성을 보여줍니다.
3. NaViT는 이미지 및 비디오 분류, 객체 탐지, 의미론적 분할 등의 표준 작업으로 효율적으로 전환할 수 있으며, 강건성과 공정성 벤치마크에서 향상된 결과를 보여줍니다.
'AI > Google&DeepMind' 카테고리의 다른 글
세인레그 SXSW2024 전체 인터뷰 스크립트 (0) | 2024.04.14 |
---|---|
세인레그 SXSW2024 인터뷰 요약 (0) | 2024.04.13 |
일반 패턴 머신으로서의 대형 언어 모델 (0) | 2023.07.11 |
Focused Transformer: 컨텍스트 스케일링을 위한 대조 훈련 (0) | 2023.07.07 |
Learning to Modulate pre-trained Models in RL (0) | 2023.06.27 |