pice35408784b54431987c4d13c457b9cd
  • Joined on 2024-09-23
一个小型的Resnet模型用于MNIST数据集。在验证集上达到了0.985的准确率。
Updated 2025-01-06 14:34:06 +08:00
WD SwinV2 Tagger v3 with transformers
Updated 2024-12-30 17:46:31 +08:00
UForm-Gen 是一种小型生成式视觉语言模型,主要用于图像描述和视觉问答。
Updated 2024-12-25 16:15:48 +08:00
第一个用于计算机视觉的混合模型,它利用了 Mamba 和 Transformers 的优势。
Updated 2024-11-25 09:59:21 +08:00
近年来,随着人工智能技术的不断发展,计算机视觉技术也在不断进步。图像分类是计算机视觉领域中的一个重要问题,它可以应用于很多实际场景,比如安防、智能家居、物流等。为了解决这个问题,达摩院modelscope模型开源平台实现了NextViT模型,它是一款基于Transformer的实时中文日常物品图像分类模型,其在计算机视觉领域中具有极高的准确性和速度,值得广泛推广应用。
Updated 2024-11-01 11:42:03 +08:00
ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,虽然不是第一篇将transformer应用在视觉任务的论文,但是因为其模型‘’简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域应用的里程碑著作,也引爆了后续相关研究。
Updated 2024-09-24 11:09:51 +08:00