pice35408784b54431987c4d13c457b9cd

resnet-tiny-mnist_a14192764948180992461927

Python 0 0

一个小型的Resnet模型用于MNIST数据集。在验证集上达到了0.985的准确率。

Updated 2025-01-06 14:34:06 +08:00

wd-swinv2-tagger-v3-hf_a14114833405964288278588

Python 0 0

WD SwinV2 Tagger v3 with transformers

Updated 2024-12-30 17:46:31 +08:00

uform-gen2-qwen-500m_a14046212370067456393158

Python 0 0

UForm-Gen 是一种小型生成式视觉语言模型，主要用于图像描述和视觉问答。

Updated 2024-12-25 16:15:48 +08:00

MambaVision-L2-1K_a13579495393587200203800

Python 0 0

第一个用于计算机视觉的混合模型，它利用了 Mamba 和 Transformers 的优势。

Updated 2024-11-25 09:59:21 +08:00

NextViT_image_classification

Python 0 0

近年来，随着人工智能技术的不断发展，计算机视觉技术也在不断进步。图像分类是计算机视觉领域中的一个重要问题，它可以应用于很多实际场景，比如安防、智能家居、物流等。为了解决这个问题，达摩院modelscope模型开源平台实现了NextViT模型，它是一款基于Transformer的实时中文日常物品图像分类模型，其在计算机视觉领域中具有极高的准确性和速度，值得广泛推广应用。

Updated 2024-11-01 11:42:03 +08:00

ViT_image_classification

Python 0 0

ViT是2020年Google团队提出的将Transformer应用在图像分类的模型，虽然不是第一篇将transformer应用在视觉任务的论文，但是因为其模型‘’简单”且效果好，可扩展性强（scalable，模型越大效果越好），成为了transformer在CV领域应用的里程碑著作，也引爆了后续相关研究。

Updated 2024-09-24 11:09:51 +08:00