LeViT-128S 模型在 ImageNet-1k 上以 224x224 的分辨率进行预训练。Graham 等人在论文 LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference 中介绍了它。