视觉Transformer(ViT)是一种类似BERT的变换器编码器模型,它在一个大型图像集合上以有监督的方式预训练,即在分辨率为224x224像素的ImageNet-21k数据集上进行预训练。
Go to file
YYJ-aaaa dc4a998919 first commit 2024-11-12 16:34:25 +08:00
.gitattributes Add .gitattributes 2024-11-12 16:24:29 +08:00
README.md Initial commit 2024-11-12 16:24:29 +08:00
config.json first commit 2024-11-12 16:34:25 +08:00
flax_model.msgpack first commit 2024-11-12 16:34:25 +08:00
model.safetensors first commit 2024-11-12 16:34:25 +08:00
preprocessor_config.json first commit 2024-11-12 16:34:25 +08:00
pytorch_model.bin first commit 2024-11-12 16:34:25 +08:00
tf_model.h5 first commit 2024-11-12 16:34:25 +08:00

README.md

vit-base-patch32-384_a13570863137681408750282

视觉TransformerViT是一种类似BERT的变换器编码器模型它在一个大型图像集合上以有监督的方式预训练即在分辨率为224x224像素的ImageNet-21k数据集上进行预训练。