在 ImageNet-22k 上以 224x224 的分辨率训练的 ConvNeXT 模型。
Updated 2024-11-27 11:17:35 +08:00
CvT-w24 模型在 ImageNet-22k 上预先训练,并在 ImageNet-1k 上以 384x384 的分辨率进行微调。
Updated 2024-11-27 10:52:48 +08:00
一个 AI 驱动的图像分类器,旨在检测和防止非法或不当内容在公共平台上发布。
Updated 2024-11-27 10:01:42 +08:00
ConvNeXT 是一个纯卷积模型 (ConvNet),其灵感来自 Vision Transformers 的设计.
Updated 2024-11-26 16:24:31 +08:00
Swin Transformer 是 Vision Transformer 的一种。它通过在更深的层中合并图像块(以灰色显示)来构建分层特征图,并且由于仅在每个局部窗口(以红色显示)内计算自注意力,因此输入图像大小具有线性计算复杂性。
Updated 2024-11-26 15:55:46 +08:00
ConvNeXt V2 是一个纯卷积模型 (ConvNet),它为 ConvNeXt 引入了一个完全卷积的掩码自动编码器框架 (FCMAE) 和一个新的全局响应归一化 (GRN) 层。
Updated 2024-11-26 15:16:27 +08:00
此模型是google/vit-large-patch16-224-in21k在 touchtech/fashion-images-gender-age 数据集上的微调版本。
Updated 2024-11-26 15:03:57 +08:00
Vision Transformer (ViT) 是一个 transformer 编码器模型(类似 BERT),以 224x224 像素的受监督方式在大量图像(即 ImageNet-21k)上进行预训练。
Updated 2024-11-26 14:41:54 +08:00
Qwen2.5-Coder-0.5B-Instruct
Updated 2024-11-26 14:35:53 +08:00
Document Image Transformer (DiT) 是一种 transformer 编码器模型(类似 BERT),以自我监督的方式在大量图像上进行预训练。
Updated 2024-11-26 14:14:36 +08:00
vit-face-expression 模型是针对面部情绪识别任务进行微调的 Vision Transformer。
Updated 2024-11-26 13:42:59 +08:00
Llama-3.2-1B-Instruct
Updated 2024-11-26 11:46:20 +08:00
此模型是 google/vit-base-patch16-224-in21k 在 imagefolder 数据集上的微调版本。
Updated 2024-11-26 11:11:47 +08:00
codegeex4-all-9b
Updated 2024-11-26 10:32:55 +08:00
Qwen2.5-Math-1.5B-Instruct
Updated 2024-11-26 10:14:14 +08:00
codegemma-7b-it
Updated 2024-11-25 17:47:33 +08:00
OpenCoder-1.5B-Instruct
Updated 2024-11-25 14:49:24 +08:00
gte-multilingual-base
Updated 2024-11-25 13:36:48 +08:00
NuExtract-1.5
Updated 2024-11-25 11:38:54 +08:00
rwkv-5-world-1b5
Updated 2024-11-25 11:33:09 +08:00