vit-base-patch16-384_a13728.../README.md

229 B
Raw Blame History

vit-base-patch16-384_a13728443302801408312394

Vision Transformer ViT 是一个 transformer 编码器模型(类似 BERT以 224x224 像素的受监督方式在大量图像(即 ImageNet-21k上进行预训练。