pice35408784b54431987c4d13c457b9cd

0 0

2021年，获得 ICCV 最佳论文奖的 Swin Transformer，通过在广泛的视觉问题上证明 Transformer 架构的有效性，加速了计算机视觉领域基本模型架构的变革。2021年末，微软亚洲研究院的研究员们又进一步提出了 Swin Transformer v2.0 版本，新版本训练了迄今为止最大的稠密视觉模型，并在多个主流视觉任务上大大刷新了记录，相关论文也已被 CVPR 2022 接收。

Updated 2024-11-01 10:31:49 +08:00

mobilenet_v1_0.75_192

0 0

一个用于图像分类的 MobileNet 架构模型，适用于轻量级图像分类任务。

Updated 2024-11-01 10:16:34 +08:00

resnet-34_a13443132699701248200329

0 0

ResNet（残差网络）是一种卷积神经网络，它使残差学习和跳跃连接的概念大众化。这样可以训练更深入的模型。

Updated 2024-11-01 10:01:05 +08:00

efficientnet-b7_a13424033658564608828852

0 0

EfficientNet 是一种移动友好的纯卷积模型（ConvNet），它提出了一种新的缩放方法，该方法使用简单但高效的复合系数统一缩放深度/宽度/分辨率的所有维度。

Updated 2024-11-01 09:29:26 +08:00

vision-perceiver-conv_a13412844918009856586318

0 0

Perceiver IO 是一个 transformer 编码器模型，可以应用于任何模态（文本、图像、音频、视频等）。核心思想是在一组不太大的潜在向量（例如 256 或 512）上采用自我注意机制，并且只使用输入来执行与潜在向量的交叉注意。

Updated 2024-10-29 17:41:11 +08:00

convnext-xlarge-384-22k-1k_a13412470080008192955137

0 0

ConvNeXT 是一个纯卷积模型（ConvNet），其灵感来自 Vision Transformers 的设计，声称其性能优于它们。作者从 ResNet 开始，并以 Swin Transformer 为灵感，对其设计进行了“现代化”改造。

Updated 2024-10-29 17:21:57 +08:00

food_a13411778323279872118412

0 0

此模型是 food101 数据集上 google/vit-base-patch16-224-in21k 的微调版本。

Updated 2024-10-29 16:34:40 +08:00

cvt-13_a13411654355644416189022

0 0

微软团队提出了一个新的架构，名为CvT，它通过在ViT中引入卷积来改进ViT的性能和效率。这是通过两个主要的改进来实现的：一个是新的卷积token embedding，一个是利用卷积投影的卷积变形器块。这些变化为ViT架构引入了卷积神经网络（CNN）的理想特性（如平移、缩放和失真不变性），同时保持了变形器的优点（如动态注意力、全局背景和更好的概括性）。

Updated 2024-10-29 15:06:23 +08:00

xlnet-base-cased_a13411375446355968524259

0 0

XLNet 是一种基于新颖的广义排列语言建模目标的新型无监督语言表示学习方法。此外，XLNet 采用 Transformer-XL 作为主干模型，在涉及长上下文的语言任务中表现出出色的性能。总体而言，XLNet 在各种下游语言任务（包括问答、自然语言推理、情感分析和文档排名）上取得了最先进的（SOTA）结果。

Updated 2024-10-29 14:52:23 +08:00

roberta-base_a13411149371666432973070

Text 0 0

RoBERTa 是一个 transformers 模型，以自我监督的方式在大量英语数据语料库上进行预训练。这意味着它仅在原始文本上进行了预训练，没有人类以任何方式标记它们，并自动处理从这些文本生成输入和标签。

Updated 2024-10-29 14:15:48 +08:00

trocr-base-handwritten_a13409670139736064969847

Text 0 0

TrOCR 模型是一个编码器-解码器模型，由一个作为编码器的图像 Transformer 和一个作为解码器的文本 Transformer 组成。图像编码器是根据 BEiT 的权重初始化的，而文本解码器是从 RoBERTa 的权重初始化的。

Updated 2024-10-29 11:17:42 +08:00

git-base_a13409064600334336897081

Text 0 0

GIT 是一个以 CLIP 图像标记和文本标记为条件的 Transformer 解码器。该模型使用“teacher forcing”对大量（图像、文本）对进行训练。

Updated 2024-10-29 10:16:24 +08:00

table-transformer-structure-recognition-v1.1-all_a13397895445999616373843

0 0

在 PubTables1M 和 FinTabNet.c 上训练的 Table Transformer （TATR）模型。它由 Smock 等人在论文 Aligning benchmark datasets for table structure recognition 中引入

Updated 2024-10-28 14:57:52 +08:00

swinv2-tiny-patch4

0 0

2021年，获得 ICCV 最佳论文奖的 Swin Transformer，通过在广泛的视觉问题上证明 Transformer 架构的有效性，加速了计算机视觉领域基本模型架构的变革。2021年末，微软亚洲研究院的研究员们又进一步提出了 Swin Transformer v2.0 版本，新版本训练了迄今为止最大的稠密视觉模型，并在多个主流视觉任务上大大刷新了记录，相关论文也已被 CVPR 2022 接收。

Updated 2024-10-12 14:38:38 +08:00

test1012

0 0

1

Updated 2024-10-12 14:02:54 +08:00