Vision Transformer (ViT) 是一个 transformer 编码器模型(类似 BERT),以 224x224 像素的受监督方式在大量图像(即 ImageNet-21k)上进行预训练。
Go to file
pice35408784b54431987c4d13c457b9cd 2fda929fd9 Add .gitattributes
Signed-off-by: pice35408784b54431987c4d13c457b9cd <c457b9cd@leinao.ai>
2024-11-26 14:21:50 +08:00
.gitattributes Add .gitattributes 2024-11-26 14:21:50 +08:00
README.md Initial commit 2024-11-26 14:21:50 +08:00

README.md

vit-base-patch16-384_a13728443302801408312394

Vision Transformer ViT 是一个 transformer 编码器模型(类似 BERT以 224x224 像素的受监督方式在大量图像(即 ImageNet-21k上进行预训练。