Qwen2-VL-7B-Instruct是一个视觉语言模型,支持高分辨率图像和20分钟以上视频的理解。它在多个视觉理解基准测试中表现出色,具备复杂推理和决策能力。该模型可集成到移动设备和机器人中,实现基于视觉环境和文本指令的自动操作。此外,Qwen2-VL-7B-Instruct支持多语言,能理解图像中的多种语言文本。
Go to file
pice35408784b54431987c4d13c457b9cd ff48236b9e Add .gitattributes
Signed-off-by: pice35408784b54431987c4d13c457b9cd <c457b9cd@leinao.ai>
2025-03-14 14:26:52 +08:00
.gitattributes Add .gitattributes 2025-03-14 14:26:52 +08:00
README.md Initial commit 2025-03-14 14:26:51 +08:00

README.md

Qwen2-VL-7B-Instruct

Qwen2-VL-7B-Instruct是一个视觉语言模型支持高分辨率图像和20分钟以上视频的理解。它在多个视觉理解基准测试中表现出色具备复杂推理和决策能力。该模型可集成到移动设备和机器人中实现基于视觉环境和文本指令的自动操作。此外Qwen2-VL-7B-Instruct支持多语言能理解图像中的多种语言文本。