根据人脸图像给出面部情感分类。
Updated 2024-12-04 15:36:39 +08:00
BLIP-2 由 3 个模型组成:一个类似 CLIP 的图像编码器、一个查询转换器 (Q-Former) 和一个大型语言模型。
Updated 2024-12-04 14:59:28 +08:00
MGP-STR 是纯视觉 STR 模型,由 ViT 和专门设计的 A^3 模块组成。
Updated 2024-12-04 14:22:30 +08:00
GIT(GenerativeImage2Text 的缩写)模型,在 COCO 上进行了微调。
Updated 2024-12-04 14:10:01 +08:00
Detection Transformers with Assignment
Updated 2024-12-04 13:38:22 +08:00
DEtection TRansformer (DETR) 模型在COCO 2017目标检测数据集(包含118,000张标注图片)上进行了端到端训练。
Updated 2024-11-29 11:13:53 +08:00
这是 YOLOv5 系列中最小的模型。“s” 代表 “small”(小)。该模型在计算资源有限的设备上表现最佳,如移动设备或边缘设备。YOLOv5s 的检测速度最快,但准确度相对较低。
Updated 2024-11-29 10:51:59 +08:00
YOLOS 模型在 COCO 2017 对象检测数据集上(118k 注释图像)上进行微调。
Updated 2024-11-29 10:09:31 +08:00
DETR 模型是一个具有卷积主干的编码器-解码器转换器。为了执行对象检测,在解码器输出的顶部添加了两个头:一个用于类标签的线性层和一个用于边界框的 MLP(多层感知器)。
Updated 2024-11-28 15:19:06 +08:00
该模型旨在将皮肤癌图像分为各种类别,包括良性角化病样病变、基底细胞癌、光化性角化病、血管病变、黑色素细胞痣、黑色素瘤和皮肤纤维瘤。
Updated 2024-11-28 14:53:05 +08:00
Pyramid Vision Transformer (PVT) 是在 ImageNet-1k(也称为 ILSVRC2012)上预训练的 transformer 编码器模型。
Updated 2024-11-27 13:51:38 +08:00
BEiT 模型在 ImageNet-21k(1400 万张图像,21841 个类别)上以自我监督的方式以 224x224 的分辨率进行预训练,并在 ImageNet 2012(100 万张图像,1000 个类别)上以 512x512 的分辨率进行微调。
Updated 2024-11-27 11:45:04 +08:00
在 ImageNet-22k 上以 224x224 的分辨率训练的 ConvNeXT 模型。
Updated 2024-11-27 11:17:35 +08:00
CvT-w24 模型在 ImageNet-22k 上预先训练,并在 ImageNet-1k 上以 384x384 的分辨率进行微调。
Updated 2024-11-27 10:52:48 +08:00
一个 AI 驱动的图像分类器,旨在检测和防止非法或不当内容在公共平台上发布。
Updated 2024-11-27 10:01:42 +08:00