vit-large-patch32-384_a1405.../README.md

# vit-large-patch32-384_a14058242923032576570175

Vision Transformer （ViT） 模型在 ImageNet-21k（1400 万张图像，21843 个类别）上以 224x224 的分辨率进行预训练，并在 ImageNet 2012（100 万张图像，1000 个类别）上以 384x384 的分辨率进行微调。
Initial commit 2024-12-25 17:18:01 +08:00				`# vit-large-patch32-384_a14058242923032576570175`

				`Vision Transformer （ViT）模型在 ImageNet-21k（1400 万张图像，21843 个类别）上以 224x224 的分辨率进行预训练，并在 ImageNet 2012（100 万张图像，1000 个类别）上以 384x384 的分辨率进行微调。`