Qwen2.5-Math-7B-Instruct
Updated 2024-11-12 18:13:33 +08:00
hfl Chinese BERT with Whole Word Masking
Updated 2024-11-12 17:50:36 +08:00
星辰语义大模型-TeleChat2 7b
Updated 2024-11-12 17:16:02 +08:00
sss
Updated 2024-11-12 16:48:25 +08:00
视觉Transformer(ViT)是一种类似BERT的变换器编码器模型,它在一个大型图像集合上以有监督的方式预训练,即在分辨率为224x224像素的ImageNet-21k数据集上进行预训练。
Updated 2024-11-12 16:37:53 +08:00
该模型实际上是一个更高效训练的 Vision Transformer (ViT)。
Updated 2024-11-12 14:05:27 +08:00
Llama3-Chinese-8B基于Llama3-8B的中文对话模型,由Llama中文社区和AtomEcho(原子回声)联合研发
Updated 2024-11-12 11:49:09 +08:00
Swin Transformer 是一种视觉 Transformer。它通过在更深层次合并图像块(灰色部分所示)来构建层次化的特征图,并且由于仅在每个局部窗口内计算自注意力(红色部分所示),因此具有与输入图像大小线性相关的计算复杂度。
Updated 2024-11-12 11:26:29 +08:00
该模型是一个蒸馏版的 Vision Transformer (ViT)。它除了类 token 外,还使用了蒸馏 token,以便在预训练和微调期间有效地从教师模型(CNN)中学习。蒸馏 token 通过自注意力层与类 token ([CLS]) 和图像块 token 交互,并通过反向传播进行学习。
Updated 2024-11-12 10:15:56 +08:00
glm4 9b
Updated 2024-11-12 10:06:02 +08:00
CodeQwen1.5-7B-Chat
Updated 2024-11-11 18:25:13 +08:00
cs
Updated 2024-11-11 16:50:09 +08:00
Qwen2-VL-7B-Instruct
Updated 2024-11-11 16:29:30 +08:00
Swin Transformer 是一种视觉 Transformer。它通过在更深层次合并图像块(灰色部分所示)来构建层次化的特征图,并且由于仅在每个局部窗口内计算自注意力(红色部分所示),因此具有与输入图像大小线性相关的计算复杂度。
Updated 2024-11-08 15:53:38 +08:00
这是一个测试
Updated 2024-11-08 15:20:41 +08:00
MobileNet 系列模型具有小巧、低延迟、低功耗的特点,可根据不同应用场景的资源限制进行参数化调整。
Updated 2024-11-08 15:17:14 +08:00