ResNet(残差网络)是一种卷积神经网络,它普及了残差学习和跳跃连接的概念。这使训练更深的模型成为可能。
Updated 2024-11-01 17:04:30 +08:00
文档图像变换器(DiT)是一种类似于BERT的变换器编码器模型,通过自监督方式在大量图像集合上进行预训练。该模型的预训练目标是根据遮蔽补丁预测离散变分自编码器(dVAE)编码器的视觉标记。
Updated 2024-11-01 16:49:00 +08:00
ConvNeXt V2是一个纯卷积模型(ConvNet),它引入了全卷积遮蔽自编码器框架(FCMAE)和一个新的全局响应归一化层(GRN)。ConvNeXt V2显著提高了纯卷积网络在各种识别基准测试上的性能。
Updated 2024-11-01 16:37:40 +08:00
Vision Transformer (ViT)模型使用DINOv2方法进行训练。
Updated 2024-11-01 16:25:12 +08:00
BiT是一种简单的方法,用于扩大ResNet类架构(具体是ResNetv2)的预训练规模。该方法在迁移学习中取得了显著的改进。
Updated 2024-11-01 16:11:15 +08:00
Qwen2.5-0.5B-Instruct
Updated 2024-11-01 15:54:38 +08:00
YOLO 系列因其在速度和准确性之间的合理权衡而成为最流行的实时对象检测框架。 然而,我们观察到 YOLO 的速度和准确性受到 NMS 的负面影响。 最近,基于变压器的端到端检测器 (DETR) 为消除 NMS 提供了一种替代方案。
Updated 2024-11-01 14:58:02 +08:00
SegFormer 由一个分层的Transformer编码器和一个轻量级的全MLP解码头组成,以在ADE20K和Cityscapes等语义分割基准测试中取得出色的结果。
Updated 2024-11-01 14:44:15 +08:00
qwen2.5-3B-Instruct
Updated 2024-11-01 14:27:44 +08:00
近年来,随着人工智能技术的不断发展,计算机视觉技术也在不断进步。图像分类是计算机视觉领域中的一个重要问题,它可以应用于很多实际场景,比如安防、智能家居、物流等。为了解决这个问题,达摩院modelscope模型开源平台实现了NextViT模型,它是一款基于Transformer的实时中文日常物品图像分类模型,其在计算机视觉领域中具有极高的准确性和速度,值得广泛推广应用。
Updated 2024-11-01 11:42:03 +08:00
MobileNetV3 是由 google 团队在 2019 年提出的,其原始论文为 Searching for MobileNetV3。MobileNetV3 有以下三点值得注意:1.更新 Block (bneck) 2.使用 NAS 搜索参数 (Neural Architecture Search)3.重新设计耗时层结构
Updated 2024-11-01 11:35:42 +08:00
VAE Stable Diffusion(稳定扩散)是一种用于生成模型的算法,结合了变分自编码器(Variational Autoencoder,VAE)和扩散生成网络(Diffusion Generative Network)的思想。它通过对变分自编码器进行改进,提高了生成样本的质量和多样性。
Updated 2024-11-01 11:24:03 +08:00
改变CLIP中的语言编码器以扩展语言能力
Updated 2024-11-01 11:09:35 +08:00
Google 的 Pix2Struct是一种用于理解视觉情境语言的预训练图像到文本模型。 该模型使用新颖的学习技术进行训练,将网页的屏幕截图解析为简化的HTML,为一系列下游活动提供非常适合的预训练数据源。
Updated 2024-11-01 10:51:33 +08:00
2021年,获得 ICCV 最佳论文奖的 Swin Transformer,通过在广泛的视觉问题上证明 Transformer 架构的有效性,加速了计算机视觉领域基本模型架构的变革。2021年末,微软亚洲研究院的研究员们又进一步提出了 Swin Transformer v2.0 版本,新版本训练了迄今为止最大的稠密视觉模型,并在多个主流视觉任务上大大刷新了记录,相关论文也已被 CVPR 2022 接收。
Updated 2024-11-01 10:31:49 +08:00
一个用于图像分类的 MobileNet 架构模型,适用于轻量级图像分类任务。
Updated 2024-11-01 10:16:34 +08:00
ResNet(残差网络)是一种卷积神经网络,它使残差学习和跳跃连接的概念大众化。这样可以训练更深入的模型。
Updated 2024-11-01 10:01:05 +08:00
EfficientNet 是一种移动友好的纯卷积模型 (ConvNet),它提出了一种新的缩放方法,该方法使用简单但高效的复合系数统一缩放深度/宽度/分辨率的所有维度。
Updated 2024-11-01 09:29:26 +08:00