@ -0,0 +1,3 @@
# cvt-13_a13411654355644416189022
微软团队提出了一个新的架构,名为CvT,它通过在ViT中引入卷积来改进ViT的性能和效率。这是通过两个主要的改进来实现的:一个是新的卷积token embedding,一个是利用卷积投影的卷积变形器块。这些变化为ViT架构引入了卷积神经网络(CNN)的理想特性(如平移、缩放和失真不变性),同时保持了变形器的优点(如动态注意力、全局背景和更好的概括性)。