PVTv2模型的PyTorch实现。
Updated 2024-11-06 16:04:51 +08:00
AI生成图像检测器
Updated 2024-11-06 15:34:44 +08:00
这个模型是通过在Wikimedia-SDXL图像对数据集上微调umm-maybe AI艺术检测器创建的,其中SDXL图像是使用基于BLIP生成的描述Wikimedia图像的提示生成的
Updated 2024-11-06 14:46:04 +08:00
TexTeller 是一种基于 ViT 的模型,专为端到端公式识别而设计。它可以识别自然图像中的公式并将其转换为 LaTeX 风格的公式。
Updated 2024-11-06 14:19:50 +08:00
ViT hybrid 是普通 Vision Transformer 的一个小变体,它利用卷积主干(特别是 BiT),其功能用作 Transformer 的初始“令牌”。
Updated 2024-11-06 13:58:40 +08:00
一个经过微调的vision transformer,用于对给定人脸的年龄进行分类。
Updated 2024-11-06 10:55:14 +08:00
这个模型是在chest-xray-classification数据集上对google/vit-base-patch16-224-in21k进行微调后的版本。
Updated 2024-11-06 10:08:55 +08:00
性别分类
Updated 2024-11-05 17:33:35 +08:00
BLIP-2 由 3 个模型组成:一个类似 CLIP 的图像编码器、一个查询转换器 (Q-Former) 和一个大型语言模型。
Updated 2024-11-05 10:54:38 +08:00
变形检测变换器(Deformable DEtection TRansformer, DETR),在DocLayNet上进行训练(包括11个类别的8万页标注页面)。
Updated 2024-11-04 16:52:54 +08:00
3
Updated 2024-11-04 16:43:44 +08:00
2
Updated 2024-11-04 16:43:36 +08:00
1
Updated 2024-11-04 16:43:29 +08:00
1
Updated 2024-11-04 16:43:08 +08:00
1
Updated 2024-11-04 16:42:59 +08:00
11
Updated 2024-11-04 16:42:52 +08:00
1
Updated 2024-11-04 16:42:43 +08:00