eb9e57072c | ||
---|---|---|
.gitattributes | ||
README.md | ||
config.json | ||
flax_model.msgpack | ||
model.safetensors | ||
preprocessor_config.json | ||
pytorch_model.bin | ||
tf_model.h5 |
README.md
vit-base-patch16-384_a13728443302801408312394
Vision Transformer (ViT) 是一个 transformer 编码器模型(类似 BERT),以 224x224 像素的受监督方式在大量图像(即 ImageNet-21k)上进行预训练。