在分辨率为 224x224 的 ImageNet-1k 数据集上训练的 Swin Transformer 模型。
Updated 2025-01-13 17:07:12 +08:00
这个模型是在 [微软 /beit-base-patch16-384] 上进行微调的图像分类器。它的用途是在 Waifu Diffusion 项目(对 Stable Diffusion 的微调项目)的数据预处理步骤中使用。
Updated 2025-01-13 16:35:49 +08:00
ConvNeXt V2模型使用FCMAE框架进行预训练,并在分辨率为224x224的ImageNet-1K数据集上进行了微调。
Updated 2025-01-06 15:13:46 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练的 EfficientNet 模型。
Updated 2025-01-06 14:53:45 +08:00
一个小型的Resnet模型用于MNIST数据集。在验证集上达到了0.985的准确率。
Updated 2025-01-06 14:34:06 +08:00
基于kvasir_v2数据集微调的视觉Transformer用于结肠镜检查分类
Updated 2025-01-06 14:14:48 +08:00
基于kvasir_v2数据集微调的视觉Transformer用于结肠镜检查分类。
Updated 2025-01-06 13:55:51 +08:00
TrOCR 模型是一种编码器 - 解码器模型,由一个作为编码器的图像变换器(Transformer)和一个作为解码器的文本变换器(Transformer)组成。图像编码器是利用 BEiT 的权重进行初始化的,而文本解码器则是依据 RoBERTa 的权重进行初始化的。
Updated 2025-01-03 14:54:55 +08:00
检测 Transformer(DETR)模型在 COCO 2017 目标检测(含 11.8 万张带标注图像)数据集上进行了端到端训练。
Updated 2025-01-02 14:43:31 +08:00
检测 Transformer(DETR)模型在 SKU110K 目标检测(含 8000 张带标注图像)数据集上进行了端到端训练。与原始模型相比,主要区别在于它有 400 个查询数量(num_queries),并且是在 SKU110K 数据集上进行了预训练。
Updated 2025-01-02 14:20:04 +08:00
该模型是在来自 Roboflow 的车牌识别数据集上对 hustvl/yolos-small 进行微调后的版本,其训练集中包含 5200 张图像,验证集中包含 380 张图像。原始的 YOLOS 模型是在 COCO 2017 目标检测数据集(含 11.8 万张带标注图像)上进行微调的。
Updated 2025-01-02 13:44:14 +08:00
这是一个针对时尚领域经过微调的目标检测模型。
Updated 2025-01-02 11:41:03 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练的 Swin Transformer 模型。
Updated 2024-12-31 16:20:10 +08:00