SegFormer 由一个分层的 Transformer 编码器和一个轻量级的全 MLP 解码头组成,在 ADE20K 和 Cityscapes 等语义分割基准测试中取得了优异的成绩。
Updated 2024-11-13 10:21:32 +08:00
MobileViT 是一个轻量级、低延迟的卷积神经网络,它结合了 MobileNetV2 风格的层和一个新的模块,该模块使用 transformers 将卷积中的局部处理替换为全局处理。
Updated 2024-11-13 10:04:55 +08:00
bert-base-uncased
Updated 2024-11-13 09:57:34 +08:00
Swin Transformer v2 引入了三项主要改进:1)结合余弦注意力的残差后规范化方法,以提高训练的稳定性;2)对数间隔连续位置偏置方法,有效地将使用低分辨率图像预训练的模型迁移到高分辨率输入的下游任务中;3)一种自监督预训练方法SimMIM,以减少对大量标记图像的需求。
Updated 2024-11-13 09:33:09 +08:00
googlebert系列模型中的 bert-base-chinese
Updated 2024-11-13 09:30:21 +08:00
RVOS
Updated 2024-11-12 22:34:23 +08:00
Qwen2.5-Math-7B-Instruct
Updated 2024-11-12 18:13:33 +08:00
chinese-roberta-wwm-ext-large
Updated 2024-11-12 18:12:28 +08:00
hfl Chinese BERT with Whole Word Masking
Updated 2024-11-12 17:50:36 +08:00
星辰语义大模型-TeleChat2 7b
Updated 2024-11-12 17:16:02 +08:00
视觉Transformer(ViT)是一种类似BERT的变换器编码器模型,它在一个大型图像集合上以有监督的方式预训练,即在分辨率为224x224像素的ImageNet-21k数据集上进行预训练。
Updated 2024-11-12 16:37:53 +08:00
internlm2-chat-1_8b
Updated 2024-11-12 14:21:31 +08:00
该模型实际上是一个更高效训练的 Vision Transformer (ViT)。
Updated 2024-11-12 14:05:27 +08:00
Llama3-Chinese-8B基于Llama3-8B的中文对话模型,由Llama中文社区和AtomEcho(原子回声)联合研发
Updated 2024-11-12 11:49:09 +08:00
Swin Transformer 是一种视觉 Transformer。它通过在更深层次合并图像块(灰色部分所示)来构建层次化的特征图,并且由于仅在每个局部窗口内计算自注意力(红色部分所示),因此具有与输入图像大小线性相关的计算复杂度。
Updated 2024-11-12 11:26:29 +08:00
MiniCPM3-4B
Updated 2024-11-12 10:21:42 +08:00
该模型是一个蒸馏版的 Vision Transformer (ViT)。它除了类 token 外,还使用了蒸馏 token,以便在预训练和微调期间有效地从教师模型(CNN)中学习。蒸馏 token 通过自注意力层与类 token ([CLS]) 和图像块 token 交互,并通过反向传播进行学习。
Updated 2024-11-12 10:15:56 +08:00