变形检测变换器(Deformable DEtection TRansformer, DETR),在DocLayNet上进行训练(包括11个类别的8万页标注页面)。
Updated 2024-11-04 16:52:54 +08:00
作者设计了搜索空间来进行神经架构搜索(NAS)。他们首先从一个高维的搜索空间开始,然后根据当前搜索空间采样出的最佳模型的经验,逐步施加约束来迭代缩小搜索空间。
Updated 2024-11-01 17:35:50 +08:00
data2vec: 一种用于语音、视觉和语言自监督学习的通用框架
Updated 2024-11-01 17:20:31 +08:00
ResNet(残差网络)是一种卷积神经网络,它普及了残差学习和跳跃连接的概念。这使训练更深的模型成为可能。
Updated 2024-11-01 17:04:30 +08:00
文档图像变换器(DiT)是一种类似于BERT的变换器编码器模型,通过自监督方式在大量图像集合上进行预训练。该模型的预训练目标是根据遮蔽补丁预测离散变分自编码器(dVAE)编码器的视觉标记。
Updated 2024-11-01 16:49:00 +08:00
ConvNeXt V2是一个纯卷积模型(ConvNet),它引入了全卷积遮蔽自编码器框架(FCMAE)和一个新的全局响应归一化层(GRN)。ConvNeXt V2显著提高了纯卷积网络在各种识别基准测试上的性能。
Updated 2024-11-01 16:37:40 +08:00
Vision Transformer (ViT)模型使用DINOv2方法进行训练。
Updated 2024-11-01 16:25:12 +08:00
BiT是一种简单的方法,用于扩大ResNet类架构(具体是ResNetv2)的预训练规模。该方法在迁移学习中取得了显著的改进。
Updated 2024-11-01 16:11:15 +08:00
YOLO 系列因其在速度和准确性之间的合理权衡而成为最流行的实时对象检测框架。 然而,我们观察到 YOLO 的速度和准确性受到 NMS 的负面影响。 最近,基于变压器的端到端检测器 (DETR) 为消除 NMS 提供了一种替代方案。
Updated 2024-11-01 14:58:02 +08:00
SegFormer 由一个分层的Transformer编码器和一个轻量级的全MLP解码头组成,以在ADE20K和Cityscapes等语义分割基准测试中取得出色的结果。
Updated 2024-11-01 14:44:15 +08:00
近年来,随着人工智能技术的不断发展,计算机视觉技术也在不断进步。图像分类是计算机视觉领域中的一个重要问题,它可以应用于很多实际场景,比如安防、智能家居、物流等。为了解决这个问题,达摩院modelscope模型开源平台实现了NextViT模型,它是一款基于Transformer的实时中文日常物品图像分类模型,其在计算机视觉领域中具有极高的准确性和速度,值得广泛推广应用。
Updated 2024-11-01 11:42:03 +08:00
MobileNetV3 是由 google 团队在 2019 年提出的,其原始论文为 Searching for MobileNetV3。MobileNetV3 有以下三点值得注意:1.更新 Block (bneck)
2.使用 NAS 搜索参数 (Neural Architecture Search)3.重新设计耗时层结构
Updated 2024-11-01 11:35:42 +08:00
VAE Stable Diffusion(稳定扩散)是一种用于生成模型的算法,结合了变分自编码器(Variational Autoencoder,VAE)和扩散生成网络(Diffusion Generative Network)的思想。它通过对变分自编码器进行改进,提高了生成样本的质量和多样性。
Updated 2024-11-01 11:24:03 +08:00
Google 的 Pix2Struct是一种用于理解视觉情境语言的预训练图像到文本模型。 该模型使用新颖的学习技术进行训练,将网页的屏幕截图解析为简化的HTML,为一系列下游活动提供非常适合的预训练数据源。
Updated 2024-11-01 10:51:33 +08:00