该模型用于进行图像检测
Updated 2024-11-08 15:12:42 +08:00
1
Updated 2024-11-08 14:28:26 +08:00
PoolFormer 是一种模型,它将变换器中的注意力令牌混合器替换为极其简单的操作,即池化。
Updated 2024-11-08 14:00:00 +08:00
111
Updated 2024-11-08 10:46:52 +08:00
Perceiver IO在分辨率为224x224的ImageNet(1400万张图片,1000个类别)上进行了预训练。
Updated 2024-11-07 15:29:29 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练 FocalNet 模型。它由 Yang 等人在论文 Focal Modulation Networks 中引入。
Updated 2024-11-07 14:53:52 +08:00
ConvNeXT是一个纯粹的卷积模型(ConvNet),其设计灵感来源于视觉变换器,并声称能够超越它们。作者从ResNet出发,以Swin Transformer为灵感,“现代化”了它的设计。
Updated 2024-11-07 14:37:09 +08:00
在 ImageNet-1k 上以 224x224 的分辨率预训练的 CvT-21 模型。
Updated 2024-11-07 14:07:22 +08:00
123213
Updated 2024-11-06 18:05:22 +08:00
11213
Updated 2024-11-06 18:04:06 +08:00
LeViT-128S 模型在 ImageNet-1k 上以 224x224 的分辨率进行预训练。Graham 等人在论文 LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference 中介绍了它。
Updated 2024-11-06 17:07:30 +08:00
1221321
Updated 2024-11-06 16:48:01 +08:00
12213
Updated 2024-11-06 16:47:52 +08:00
111
Updated 2024-11-06 16:47:43 +08:00
333
Updated 2024-11-06 16:47:36 +08:00
12312
Updated 2024-11-06 16:47:15 +08:00
PVTv2模型的PyTorch实现。
Updated 2024-11-06 16:04:51 +08:00