ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,虽然不是第一篇将transformer应用在视觉任务的论文,但是因为其模型‘’简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域应用的里程碑著作,也引爆了后续相关研究。
Go to file
pice35408784b54431987c4d13c457b9cd 9985771c63 Add .gitattributes
Signed-off-by: pice35408784b54431987c4d13c457b9cd <c457b9cd@leinao.ai>
2024-09-24 10:55:20 +08:00
.gitattributes Add .gitattributes 2024-09-24 10:55:20 +08:00
README.md Initial commit 2024-09-24 10:55:19 +08:00

README.md

ViT_image_classification

ViT是2020年Google团队提出的将Transformer应用在图像分类的模型虽然不是第一篇将transformer应用在视觉任务的论文但是因为其模型简单”且效果好可扩展性强scalable模型越大效果越好成为了transformer在CV领域应用的里程碑著作也引爆了后续相关研究。