172a8b7efd | ||
---|---|---|
.gitattributes | ||
README.md | ||
config.json | ||
flax_model.msgpack | ||
preprocessor_config.json | ||
pytorch_model.bin | ||
tf_model.h5 |
README.md
vit-large-patch16-384_a13819965258461184668209
Vision Transformer (ViT) 模型在 ImageNet-21k(1400 万张图像,21843 个类别)上以 224x224 的分辨率进行预训练,并在 ImageNet 2012(100 万张图像,1000 个类别)上以 384x384 的分辨率进行微调。