vit-base-patch16-384_a13728.../README.md

# vit-base-patch16-384_a13728443302801408312394

Vision Transformer （ViT） 是一个 transformer 编码器模型（类似 BERT），以 224x224 像素的受监督方式在大量图像（即 ImageNet-21k）上进行预训练。
Initial commit 2024-11-26 14:21:50 +08:00				`# vit-base-patch16-384_a13728443302801408312394`

				`Vision Transformer （ViT）是一个 transformer 编码器模型（类似 BERT），以 224x224 像素的受监督方式在大量图像（即 ImageNet-21k）上进行预训练。`