pice35408784b54431987c4d13c457b9cd
  • Joined on 2024-09-23
在 ImageNet-1k 上以 224x224 的分辨率训练的 ConvNeXT 模型。
Updated 2024-11-21 10:45:07 +08:00
Swin Transformer v2 模型在 ImageNet-21k 上预先训练,并在 ImageNet-1k 上以 384x384 的分辨率进行微调。
Updated 2024-11-19 14:54:35 +08:00
可变形检测Transformer(Deformable DEtection TRansformer,DETR),具有框体优化和两阶段模型,已在 COCO 2017 目标检测数据集(包含 11.8 万张标注图像)上进行端到端训练。
Updated 2024-11-18 16:49:41 +08:00
本文介绍了一种基于卷积运算的新注意力层,能够捕获局部和远程关系。这是通过组合普通和大型核卷积层来实现的。后者使用扩张卷积来捕获遥远的相关性。
Updated 2024-11-18 16:20:05 +08:00
SegFormer 由分层 Transformer 编码器和轻量级的全 MLP 解码头组成,能在 ADE20K 和 Cityscapes 等语义分割基准数据集上取得出色效果。分层 Transformer 首先在 ImageNet-1k 上进行了预训练,然后添加了解码头,并在下游数据集上进行了微调。
Updated 2024-11-15 15:04:56 +08:00
SegFormer 由一个分层的 Transformer 编码器和一个轻量级的全 MLP 解码头组成,在 ADE20K 和 Cityscapes 等语义分割基准测试中取得了优异的成绩。
Updated 2024-11-13 10:21:32 +08:00
MobileViT 是一个轻量级、低延迟的卷积神经网络,它结合了 MobileNetV2 风格的层和一个新的模块,该模块使用 transformers 将卷积中的局部处理替换为全局处理。
Updated 2024-11-13 10:04:55 +08:00
Swin Transformer v2 引入了三项主要改进:1)结合余弦注意力的残差后规范化方法,以提高训练的稳定性;2)对数间隔连续位置偏置方法,有效地将使用低分辨率图像预训练的模型迁移到高分辨率输入的下游任务中;3)一种自监督预训练方法SimMIM,以减少对大量标记图像的需求。
Updated 2024-11-13 09:33:09 +08:00
视觉Transformer(ViT)是一种类似BERT的变换器编码器模型,它在一个大型图像集合上以有监督的方式预训练,即在分辨率为224x224像素的ImageNet-21k数据集上进行预训练。
Updated 2024-11-12 16:37:53 +08:00
该模型实际上是一个更高效训练的 Vision Transformer (ViT)。
Updated 2024-11-12 14:05:27 +08:00
Swin Transformer 是一种视觉 Transformer。它通过在更深层次合并图像块(灰色部分所示)来构建层次化的特征图,并且由于仅在每个局部窗口内计算自注意力(红色部分所示),因此具有与输入图像大小线性相关的计算复杂度。
Updated 2024-11-12 11:26:29 +08:00
该模型是一个蒸馏版的 Vision Transformer (ViT)。它除了类 token 外,还使用了蒸馏 token,以便在预训练和微调期间有效地从教师模型(CNN)中学习。蒸馏 token 通过自注意力层与类 token ([CLS]) 和图像块 token 交互,并通过反向传播进行学习。
Updated 2024-11-12 10:15:56 +08:00
Swin Transformer 是一种视觉 Transformer。它通过在更深层次合并图像块(灰色部分所示)来构建层次化的特征图,并且由于仅在每个局部窗口内计算自注意力(红色部分所示),因此具有与输入图像大小线性相关的计算复杂度。
Updated 2024-11-08 15:53:38 +08:00
MobileNet 系列模型具有小巧、低延迟、低功耗的特点,可根据不同应用场景的资源限制进行参数化调整。
Updated 2024-11-08 15:17:14 +08:00