dc4a998919 | ||
---|---|---|
.gitattributes | ||
README.md | ||
config.json | ||
flax_model.msgpack | ||
model.safetensors | ||
preprocessor_config.json | ||
pytorch_model.bin | ||
tf_model.h5 |
README.md
vit-base-patch32-384_a13570863137681408750282
视觉Transformer(ViT)是一种类似BERT的变换器编码器模型,它在一个大型图像集合上以有监督的方式预训练,即在分辨率为224x224像素的ImageNet-21k数据集上进行预训练。