This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# cvt-13_a13411654355644416189022
微软团队提出了一个新的架构,名为CvT,它通过在ViT中引入卷积来改进ViT的性能和效率。这是通过两个主要的改进来实现的:一个是新的卷积token embedding,一个是利用卷积投影的卷积变形器块。这些变化为ViT架构引入了卷积神经网络(CNN)的理想特性(如平移、缩放和失真不变性),同时保持了变形器的优点(如动态注意力、全局背景和更好的概括性)。