ConvNeXT 是一个纯卷积模型 (ConvNet),其灵感来自 Vision Transformers 的设计,声称其性能优于它们。作者从 ResNet 开始,并以 Swin Transformer 为灵感,对其设计进行了“现代化”改造。