文章来源:智汇AI 发布时间:2025-06-29
QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个基准测试中表现出色,在多模态理解和推理任务上展现了强
暂无访问QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个基准测试中表现出色,在多模态理解和推理任务上展现了强大的能力。能准确理解图像内容,进行复杂的逐步推理,支持从图片中推断物体高度、数量等具体信息,能识别图片的深层含义,如“梗图”内涵。
QVQ-72B-Preview 在以下四个数据集上进行了评估:
MMMU:一个大学级别的多学科多模态评估数据集,评估模型与视觉相关的综合理解和推理能力,视觉推理得分 70.3,达到大学水准。MathVista:一个以数学为中心的视觉推理测试集,用于评估使用拼图测试图形进行逻辑推理、使用函数图进行代数推理以及使用学术论文数字进行科学推理等功能,超越 OpenAI o1,展现出强大的数学与图形推理能力。MathVision:源自真实数学竞赛的高质量多模态数学推理测试集,与 MathVista 相比,具有更大的问题多样性和学科广度,表现超越 GPT-4o 和 Claude 3.5。OlympiadBench:奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理比赛(包括中国高考)的 8476 道题目,表现超越 GPT-4o 和 Claude 3.5。。