Vision Transformer (ViT) 模型在 ImageNet-21k(1400 万张图像,21843 个类别)上进行预训练,并在 CIFAR10 上以 224x224 的分辨率进行微调。
Go to file
YYJ-aaaa 50cc880347 first commit 2024-12-05 14:32:35 +08:00
.gitattributes Add .gitattributes 2024-12-05 14:03:00 +08:00
README.md Initial commit 2024-12-05 14:03:00 +08:00
config.json first commit 2024-12-05 14:32:35 +08:00
preprocessor_config.json first commit 2024-12-05 14:32:35 +08:00
pytorch_model.bin first commit 2024-12-05 14:32:35 +08:00

README.md

vit-base-patch16-224-cifar10_a13830216739319808912711

Vision Transformer ViT 模型在 ImageNet-21k1400 万张图像21843 个类别)上进行预训练,并在 CIFAR10 上以 224x224 的分辨率进行微调。