Vision Transformer (ViT) 是一个 transformer 编码器模型(类似 BERT),以 224x224 像素的受监督方式在大量图像(即 ImageNet-21k)上进行预训练。