Vision Transformer (ViT) 模型在 ImageNet-21k(1400 万张图像,21843 个类别)上以 224x224 的分辨率进行预训练,并在 ImageNet 2012(100 万张图像,1000 个类别)上以 384x384 的分辨率进行微调。
Go to file
pice35408784b54431987c4d13c457b9cd e8e11f0587 Add .gitattributes
Signed-off-by: pice35408784b54431987c4d13c457b9cd <c457b9cd@leinao.ai>
2024-12-04 16:19:27 +08:00
.gitattributes Add .gitattributes 2024-12-04 16:19:27 +08:00
README.md Initial commit 2024-12-04 16:19:27 +08:00

README.md

vit-large-patch16-384_a13819965258461184668209

Vision Transformer ViT 模型在 ImageNet-21k1400 万张图像21843 个类别)上以 224x224 的分辨率进行预训练,并在 ImageNet 2012100 万张图像1000 个类别)上以 384x384 的分辨率进行微调。