pice35408784b54431987c4d13c457b9cd
  • Joined on 2024-09-23
Qwen3 is the latest generation of large language models in Qwen series, offering a comprehensive suite of dense and mixture-of-experts (MoE) models.
Updated 2025-05-08 09:33:44 +08:00
Google DeepMind 发布的 Gemma3-4B 在计算效率、任务适应性和多模态能力之间取得了良好平衡,相较于 1B 版本,它提供了更强的文本理解能力,并新增了视觉模块支持,使其适用于更广泛的任务场景。同时,相较于 12B 和 27B 版本,4B 版本在推理效率和资源占用上具备显著优势,适合在云端和本地 GPU 设备上运行。
Updated 2025-03-24 11:15:03 +08:00
Qwen2-VL-7B-Instruct是一个视觉语言模型,支持高分辨率图像和20分钟以上视频的理解。它在多个视觉理解基准测试中表现出色,具备复杂推理和决策能力。该模型可集成到移动设备和机器人中,实现基于视觉环境和文本指令的自动操作。此外,Qwen2-VL-7B-Instruct支持多语言,能理解图像中的多种语言文本。
Updated 2025-03-14 14:26:52 +08:00
YOLOv8s 股市形态检测模型是一种基于 YOLO框架的目标检测模型。它旨在实时检测股市交易视频数据中的各种图表形态。该模型通过自动分析图表形态来辅助交易员和投资者,为他们做出明智的决策提供及时的见解。
Updated 2025-03-12 10:26:53 +08:00
Qwen-VL 模型的最新版本
Updated 2025-02-19 16:25:08 +08:00
VideoMAE 模型在 Kinetics-400 数据集上以自监督方式进行了 1600 轮预训练。该模型由 Tong 等人在论文 VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training 中提出。
Updated 2025-02-17 16:39:24 +08:00
2024年5月13日,零一万物发了Yi-1.5系列模型。Yi-1.5系列模型在一个包含5000亿个标记的高质量语料库上进行持续的预训练得到增强,并且还在300万个多样化的微调样本上进行了微调。
Updated 2025-02-10 10:53:38 +08:00
自然语言模型
Updated 2025-02-05 15:49:55 +08:00
该模型是基于 google/vit-base-patch16 - 224 - in21k 模型,在 FER 2013、MMI 面部表情数据库以及 AffectNet 数据集上进行微调得到的版本。
Updated 2025-01-21 16:38:06 +08:00
采用 DINOv2 方法训练的视觉 Transformer(ViT)模型。
Updated 2025-01-21 16:00:20 +08:00
This model was trained to detect deepfake images.
Updated 2025-01-21 15:40:31 +08:00
Deformable DEtection TRansformer (DETR), trained on LVIS (including 1203 classes).
Updated 2025-01-21 15:07:53 +08:00
仅进行预训练的Donut模型。它由 Geewok 等人在论文 OCR-free Document Understanding Transformer中提出。
Updated 2025-01-21 14:11:27 +08:00
针对日语文本的光学字符识别,主要聚焦于日本漫画。
Updated 2025-01-21 13:57:19 +08:00
仅进行预训练的 SegFormer(b1-sized)编码器
Updated 2025-01-14 17:03:23 +08:00