VideoMAE 模型在 Kinetics-400 数据集上以自监督方式进行了 1600 轮预训练。该模型由 Tong 等人在论文 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training 中提出。
Updated 2025-02-17 16:39:24 +08:00
2024年5月13日,零一万物发了Yi-1.5系列模型。Yi-1.5系列模型在一个包含5000亿个标记的高质量语料库上进行持续的预训练得到增强,并且还在300万个多样化的微调样本上进行了微调。
Updated 2025-02-10 10:53:38 +08:00
该模型是基于 google/vit-base-patch16 - 224 - in21k 模型,在 FER 2013、MMI 面部表情数据库以及 AffectNet 数据集上进行微调得到的版本。
Updated 2025-01-21 16:38:06 +08:00
采用 DINOv2 方法训练的视觉 Transformer(ViT)模型。
Updated 2025-01-21 16:00:20 +08:00
This model was trained to detect deepfake images.
Updated 2025-01-21 15:40:31 +08:00
Deformable DEtection TRansformer (DETR), trained on LVIS (including 1203 classes).
Updated 2025-01-21 15:07:53 +08:00
仅进行预训练的Donut模型。它由 Geewok 等人在论文 OCR-free Document Understanding Transformer中提出。
Updated 2025-01-21 14:11:27 +08:00
在分辨率为 224x224 的 ImageNet-1k 数据集上训练的 Swin Transformer 模型。
Updated 2025-01-13 17:07:12 +08:00
这个模型是在 [微软 /beit-base-patch16-384] 上进行微调的图像分类器。它的用途是在 Waifu Diffusion 项目(对 Stable Diffusion 的微调项目)的数据预处理步骤中使用。
Updated 2025-01-13 16:35:49 +08:00
ConvNeXt V2模型使用FCMAE框架进行预训练,并在分辨率为224x224的ImageNet-1K数据集上进行了微调。
Updated 2025-01-06 15:13:46 +08:00