Vision Transformer （ViT）模型在 ImageNet-21k（1400 万张图像，21843 个类别）上进行预训练，并在 CIFAR10 上以 224x224 的分辨率进行微调。

Go to file

pice35408784b54431987c4d13c457b9cd 8364fa00a8 Add .gitattributes Signed-off-by: pice35408784b54431987c4d13c457b9cd <c457b9cd@leinao.ai>		2024-12-05 14:03:00 +08:00
.gitattributes	Add .gitattributes	2024-12-05 14:03:00 +08:00
README.md	Initial commit	2024-12-05 14:03:00 +08:00

vit-base-patch16-224-cifar10_a13830216739319808912711

Vision Transformer （ViT）模型在 ImageNet-21k（1400 万张图像，21843 个类别）上进行预训练，并在 CIFAR10 上以 224x224 的分辨率进行微调。