Vision Transformer (ViT) 模型在 ImageNet-21k(1400 万张图像,21843 个类别)上以 224x224 的分辨率进行预训练,并在 ImageNet 2012(100 万张图像,1000 个类别)上以 384x384 的分辨率进行微调。
Updated 2024-12-04 17:10:49 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练的 ConvNeXT 模型。
Updated 2024-12-04 16:02:37 +08:00
根据人脸图像给出面部情感分类。
Updated 2024-12-04 15:36:39 +08:00
BLIP-2 由 3 个模型组成:一个类似 CLIP 的图像编码器、一个查询转换器 (Q-Former) 和一个大型语言模型。
Updated 2024-12-04 14:59:28 +08:00
MGP-STR 是纯视觉 STR 模型,由 ViT 和专门设计的 A^3 模块组成。
Updated 2024-12-04 14:22:30 +08:00
GIT(GenerativeImage2Text 的缩写)模型,在 COCO 上进行了微调。
Updated 2024-12-04 14:10:01 +08:00
Detection Transformers with Assignment
Updated 2024-12-04 13:38:22 +08:00
dsf
Updated 2024-12-03 18:04:23 +08:00
Skywork-o1-Open-Llama-3.1-8B
Updated 2024-12-03 16:22:22 +08:00