本文挑战了视觉Transformer (ViT) 因二次自注意力机制而难以处理高分辨率图像的观点。作者认为,ViT能够很好地扩展到1024x1024像素²,足以满足大多数图像编码任务。跨不同GPU的基准测试表明,ViT比同等CNN更快,内存效率更高,尤其是在较新的硬件上。
作者还强调,高分辨率并非总是必要的,认为对于许多任务来说,较低分辨率(224-896像素²)就足够了,因为计算机视觉模型不需要人类那样高的审美细节。高分辨率下的性能提升往往是由于模型容量(FLOPs)的增加,而不是仅仅由于分辨率的提高。
此外,文章还重点介绍了局部注意力机制,例如ViTDet中的机制,它通过将注意力限制在局部窗口内来提高ViT在高分辨率下的速度和内存效率。作者总结道,ViT是一种可行且通常优于CNN的替代方案,提倡通过实证评估来克服先入为主的局限性。