Vision Transformer (ViT) 模型在 ImageNet-21k(1400 万张图像,21843 个类别)上以 224x224 的分辨率进行预训练,并在 ImageNet 2012(100 万张图像,1000 个类别)上以 384x384 的分辨率进行微调。
Updated 2024-12-26 13:49:01 +08:00
Swin Transformer 模型在 ImageNet-21k(1400 万张图像,21841 个类)上以 384x384 的分辨率进行预训练。
Updated 2024-12-26 11:09:28 +08:00
此模型是 imagefolder 数据集上 google/vit-base-patch16-224-in21k 的微调版本。
Updated 2024-12-25 17:41:01 +08:00
该模型的使用方式与 ViT-base相同。
Updated 2024-12-25 16:33:45 +08:00
UForm-Gen 是一种小型生成式视觉语言模型,主要用于图像描述和视觉问答。
Updated 2024-12-25 16:15:48 +08:00
此模型是 imagefolder 数据集上 google/vit-base-patch16-224 的微调版本。
Updated 2024-12-24 16:56:59 +08:00
SegFormer 编码器在 Imagenet-1k 上进行了微调。
Updated 2024-12-24 16:35:56 +08:00
ceshiyixia
Updated 2024-12-23 16:46:48 +08:00
resnet50-1223
Updated 2024-12-23 10:47:44 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练的 ConvNeXT 模型, 在 cifar 10 数据集上进行了微调。
Updated 2024-12-20 16:51:24 +08:00
此模型是 imagefolder 数据集上 google/vit-base-patch16-224 的微调版本。
Updated 2024-12-20 16:27:28 +08:00
cccc
Updated 2024-12-20 13:58:02 +08:00
112
Updated 2024-12-19 17:52:52 +08:00
1
Updated 2024-12-18 13:42:59 +08:00