pice35408784b54431987c4d13c457b9cd
  • Joined on 2024-09-23
此模型是 imagefolder 数据集上 google/vit-base-patch16-224 的微调版本。
Updated 2024-12-24 16:56:59 +08:00
SegFormer 编码器在 Imagenet-1k 上进行了微调。
Updated 2024-12-24 16:35:56 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练的 ConvNeXT 模型, 在 cifar 10 数据集上进行了微调。
Updated 2024-12-20 16:51:24 +08:00
此模型是 imagefolder 数据集上 google/vit-base-patch16-224 的微调版本。
Updated 2024-12-20 16:27:28 +08:00
此模型是 google/vit-base-patch16-224-in21k 在 pittawat/uppercase-english-characters 数据集上的微调版本。
Updated 2024-12-09 17:32:14 +08:00
此模型是 imagefolder 数据集上 google/vit-base-patch16-224 的微调版本。
Updated 2024-12-09 17:16:46 +08:00
该模型实际上是一个训练效率更高的 Vision Transformer (ViT)。
Updated 2024-12-09 16:51:49 +08:00
Swin Transformer v2 模型在 ImageNet-21k 上以 192x192 的分辨率进行了预训练。
Updated 2024-12-06 17:28:28 +08:00
BEiT 模型在 ImageNet-22k(也称为 ImageNet-21k(1400 万张图像,21841 个类别))上以自我监督的方式进行预训练,并在分辨率为 224x224 的同一数据集上进行微调。
Updated 2024-12-05 17:03:01 +08:00
google/vit-base-patch16-224-in21k 的微调版本。
Updated 2024-12-05 16:51:06 +08:00
DeiT模型在 ImageNet-1k(100 万张图像,1000 个类别)上以 224x224 的分辨率进行预训练和微调。
Updated 2024-12-05 16:33:47 +08:00
该模型用于检查图像是真实的还是伪造的(AI 生成的)。
Updated 2024-12-05 16:16:57 +08:00
Vision Transformer (ViT) 模型在 ImageNet-21k(1400 万张图像,21843 个类别)上进行预训练,并在 CIFAR10 上以 224x224 的分辨率进行微调。
Updated 2024-12-05 14:34:25 +08:00
Vision Transformer (ViT) 模型在 ImageNet-21k(1400 万张图像,21843 个类别)上以 224x224 的分辨率进行预训练,并在 ImageNet 2012(100 万张图像,1000 个类别)上以 384x384 的分辨率进行微调。
Updated 2024-12-04 17:10:49 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练的 ConvNeXT 模型。
Updated 2024-12-04 16:02:37 +08:00