该模型是一个蒸馏版的 Vision Transformer (ViT)。它除了类 token 外,还使用了蒸馏 token,以便在预训练和微调期间有效地从教师模型(CNN)中学习。蒸馏 token 通过自注意力层与类 token ([CLS]) 和图像块 token 交互,并通过反向传播进行学习。
Updated 2024-11-12 10:15:56 +08:00
glm4 9b
Updated 2024-11-12 10:06:02 +08:00
CodeQwen1.5-7B-Chat
Updated 2024-11-11 18:25:13 +08:00
cs
Updated 2024-11-11 16:50:09 +08:00
Qwen2-VL-7B-Instruct
Updated 2024-11-11 16:29:30 +08:00
Swin Transformer 是一种视觉 Transformer。它通过在更深层次合并图像块(灰色部分所示)来构建层次化的特征图,并且由于仅在每个局部窗口内计算自注意力(红色部分所示),因此具有与输入图像大小线性相关的计算复杂度。
Updated 2024-11-08 15:53:38 +08:00
这是一个测试
Updated 2024-11-08 15:20:41 +08:00
MobileNet 系列模型具有小巧、低延迟、低功耗的特点,可根据不同应用场景的资源限制进行参数化调整。
Updated 2024-11-08 15:17:14 +08:00
该模型用于进行图像检测
Updated 2024-11-08 15:12:42 +08:00
PoolFormer 是一种模型,它将变换器中的注意力令牌混合器替换为极其简单的操作,即池化。
Updated 2024-11-08 14:00:00 +08:00
Perceiver IO在分辨率为224x224的ImageNet(1400万张图片,1000个类别)上进行了预训练。
Updated 2024-11-07 15:29:29 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练 FocalNet 模型。它由 Yang 等人在论文 Focal Modulation Networks 中引入。
Updated 2024-11-07 14:53:52 +08:00
ConvNeXT是一个纯粹的卷积模型(ConvNet),其设计灵感来源于视觉变换器,并声称能够超越它们。作者从ResNet出发,以Swin Transformer为灵感,“现代化”了它的设计。
Updated 2024-11-07 14:37:09 +08:00
在 ImageNet-1k 上以 224x224 的分辨率预训练的 CvT-21 模型。
Updated 2024-11-07 14:07:22 +08:00
c
Updated 2024-11-07 09:17:00 +08:00
cs
Updated 2024-11-06 18:05:11 +08:00