Vision Transformer （ViT）模型在 ImageNet-21k（1400 万张图像，21843 个类别）上以 224x224 的分辨率进行预训练，并在 ImageNet 2012（100 万张图像，1000 个类别）上以 384x384 的分辨率进行微调。

Go to file

YYJ-aaaa 172a8b7efd first commit		2024-12-04 17:06:02 +08:00
.gitattributes	Add .gitattributes	2024-12-04 16:19:27 +08:00
README.md	Initial commit	2024-12-04 16:19:27 +08:00
config.json	first commit	2024-12-04 17:06:02 +08:00
flax_model.msgpack	first commit	2024-12-04 17:06:02 +08:00
preprocessor_config.json	first commit	2024-12-04 17:06:02 +08:00
pytorch_model.bin	first commit	2024-12-04 17:06:02 +08:00
tf_model.h5	first commit	2024-12-04 17:06:02 +08:00

README.md

vit-large-patch16-384_a13819965258461184668209

Vision Transformer （ViT）模型在 ImageNet-21k（1400 万张图像，21843 个类别）上以 224x224 的分辨率进行预训练，并在 ImageNet 2012（100 万张图像，1000 个类别）上以 384x384 的分辨率进行微调。