Qwen2.5-VL-3B

简介

Qwen2.5-VL-3B是阿里云通义千问团队开发的多模态视觉语言模型，具备强大的图像理解和视频分析能力。该模型经过量化优化，能够在移动设备上流畅运行，适用于智能相册、视觉问答等场景。Qwen2.5-VL-3B是通义千问视觉模型的最新迭代版本，在图像识别、目标检测、视觉推理等方面都有显著提升。3B参数版本专为移动端部署设计，通过INT4/INT8量化技术大幅减小模型体积，同时保持较高的识别准确率。该模型可以处理静态图片和动态视频输入，支持多种视觉任务，包括图像分类、物体识别、场景理解、文字识别等。在骁龙移动平台上运行时，能够实现低延迟的实时推理，为用户提供即时的视觉AI服务。

效果视频

规格与下载

设备型号	下载链接
骁龙 X Elite-8380	下载
骁龙 X2 Elite-8480	下载
骁龙 8 至尊版-8750	下载
第五代骁龙 8 至尊版-8850	下载

技术细节

Context length:2048
Number of parameters:3B
Precision:W4A16 (4-bit weights, 16-bit activations)
Num of key-value heads: The model uses Grouped-Query Attention (GQA).
Information about the model parts: The model is split into 5 parts, and weight sharing is enabled across models with different auto-regression lengths (e.g., 128 and 32).
Supported languages: Multiple languages
Response Rate: 34.53toks/soc

应用领域

Dialogue
Content Generation
Customer Support

授权信息

Source Model: APACHE-2.0
Deployable Model: AI-HUB-MODELS-LICENSE