318b834b85 | ||
---|---|---|
.gitattributes | ||
README.md | ||
config.json | ||
model.safetensors | ||
preprocessor_config.json | ||
pytorch_model.bin | ||
tf_model.h5 |
README.md
cvt-13_a13411654355644416189022
微软团队提出了一个新的架构,名为CvT,它通过在ViT中引入卷积来改进ViT的性能和效率。这是通过两个主要的改进来实现的:一个是新的卷积token embedding,一个是利用卷积投影的卷积变形器块。这些变化为ViT架构引入了卷积神经网络(CNN)的理想特性(如平移、缩放和失真不变性),同时保持了变形器的优点(如动态注意力、全局背景和更好的概括性)。