cs
Updated 2024-11-06 17:55:08 +08:00
LeViT-128S 模型在 ImageNet-1k 上以 224x224 的分辨率进行预训练。Graham 等人在论文 LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference 中介绍了它。
Updated 2024-11-06 17:07:30 +08:00
PVTv2模型的PyTorch实现。
Updated 2024-11-06 16:04:51 +08:00
这个模型是通过在Wikimedia-SDXL图像对数据集上微调umm-maybe AI艺术检测器创建的,其中SDXL图像是使用基于BLIP生成的描述Wikimedia图像的提示生成的
Updated 2024-11-06 14:46:04 +08:00
TexTeller 是一种基于 ViT 的模型,专为端到端公式识别而设计。它可以识别自然图像中的公式并将其转换为 LaTeX 风格的公式。
Updated 2024-11-06 14:19:50 +08:00
ViT hybrid 是普通 Vision Transformer 的一个小变体,它利用卷积主干(特别是 BiT),其功能用作 Transformer 的初始“令牌”。
Updated 2024-11-06 13:58:40 +08:00
一个经过微调的vision transformer,用于对给定人脸的年龄进行分类。
Updated 2024-11-06 10:55:14 +08:00
这个模型是在chest-xray-classification数据集上对google/vit-base-patch16-224-in21k进行微调后的版本。
Updated 2024-11-06 10:08:55 +08:00
同名测试
Updated 2024-11-05 11:37:16 +08:00
BLIP-2 由 3 个模型组成:一个类似 CLIP 的图像编码器、一个查询转换器 (Q-Former) 和一个大型语言模型。
Updated 2024-11-05 10:54:38 +08:00
casst
Updated 2024-11-05 10:25:39 +08:00
测试重复名
Updated 2024-11-04 17:13:44 +08:00
变形检测变换器(Deformable DEtection TRansformer, DETR),在DocLayNet上进行训练(包括11个类别的8万页标注页面)。
Updated 2024-11-04 16:52:54 +08:00