pice35408784b54431987c4d13c457b9cd
  • Joined on 2024-09-23
PoolFormer 是一种模型,它将变换器中的注意力令牌混合器替换为极其简单的操作,即池化。
Updated 2024-11-08 14:00:00 +08:00
Perceiver IO在分辨率为224x224的ImageNet(1400万张图片,1000个类别)上进行了预训练。
Updated 2024-11-07 15:29:29 +08:00
在 ImageNet-1k 上以 224x224 的分辨率训练 FocalNet 模型。它由 Yang 等人在论文 Focal Modulation Networks 中引入。
Updated 2024-11-07 14:53:52 +08:00
ConvNeXT是一个纯粹的卷积模型(ConvNet),其设计灵感来源于视觉变换器,并声称能够超越它们。作者从ResNet出发,以Swin Transformer为灵感,“现代化”了它的设计。
Updated 2024-11-07 14:37:09 +08:00
在 ImageNet-1k 上以 224x224 的分辨率预训练的 CvT-21 模型。
Updated 2024-11-07 14:07:22 +08:00
LeViT-128S 模型在 ImageNet-1k 上以 224x224 的分辨率进行预训练。Graham 等人在论文 LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference 中介绍了它。
Updated 2024-11-06 17:07:30 +08:00
PVTv2模型的PyTorch实现。
Updated 2024-11-06 16:04:51 +08:00
AI生成图像检测器
Updated 2024-11-06 15:34:44 +08:00
这个模型是通过在Wikimedia-SDXL图像对数据集上微调umm-maybe AI艺术检测器创建的,其中SDXL图像是使用基于BLIP生成的描述Wikimedia图像的提示生成的
Updated 2024-11-06 14:46:04 +08:00
TexTeller 是一种基于 ViT 的模型,专为端到端公式识别而设计。它可以识别自然图像中的公式并将其转换为 LaTeX 风格的公式。
Updated 2024-11-06 14:19:50 +08:00
ViT hybrid 是普通 Vision Transformer 的一个小变体,它利用卷积主干(特别是 BiT),其功能用作 Transformer 的初始“令牌”。
Updated 2024-11-06 13:58:40 +08:00
一个经过微调的vision transformer,用于对给定人脸的年龄进行分类。
Updated 2024-11-06 10:55:14 +08:00
这个模型是在chest-xray-classification数据集上对google/vit-base-patch16-224-in21k进行微调后的版本。
Updated 2024-11-06 10:08:55 +08:00
性别分类
Updated 2024-11-05 17:33:35 +08:00
BLIP-2 由 3 个模型组成:一个类似 CLIP 的图像编码器、一个查询转换器 (Q-Former) 和一个大型语言模型。
Updated 2024-11-05 10:54:38 +08:00