GLM-4.6V-智谱开源的多模态大模型系列

文章来源：智汇AI 发布时间：2025-12-09

GLM-4.6V 是智谱推出的多模态大模型，包含面向云端与高性能集群场景的基础版GLM-4.6V（106B-A12B）和面向本地部署与低延迟应用的轻量版GLM-

暂无访问

GLM-4.6V是什么

GLM-4.6V 是智谱推出的多模态大模型，包含面向云端与高性能集群场景的基础版GLM-4.6V（106B-A12B）和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash（9B）。模型支持长上下文（128k tokens），在视觉理解精度上达到同参数规模的顶尖水平，首次将工具调用能力原生融入视觉模型，实现从视觉感知到可执行行动的闭环。模型广泛应用于智能图文创作、识图购物、前端复刻和长文档 / 视频理解等场景，性能显著优于上一代GLM-4.5V，且成本降低 50%。

GLM-4.6V的主要功能

多模态理解与生成：模型能处理图像、视频、文本等多种输入形式，生成高质量的图文混排内容，适用于内容创作、社交媒体发布等场景。视觉驱动的工具调用：支持直接使用图像、截图等作为工具参数，无需文字描述，减少信息损失，同时能处理工具返回的多模态结果，如统计图表、网页截图等。长上下文处理：上下文窗口提升至 128k tokens，能处理长达 150 页的复杂文档或 1 小时的视频内容，支持跨文档对比分析和长视频关键事件定位。智能导购与比价：在电商场景中，可实现从图像识别到商品搜索、比价和导购清单生成的完整链路。前端复刻与交互调试：支持像素级前端复刻，能将设计稿快速转化为可运行的网页代码，支持基于截图的多轮视觉交互修改。多模态交互与推理：在复杂任务中，能结合视觉输入和文本信息进行推理，生成结构化的输出结果，适用多种业务场景。高性价比与灵活部署：相较于上一代模型成本降低 50%，支持云端、本地及多种硬件环境部署，满足不同场景需求。

GLM-4.6V的性能表现

在 MMBench、MathVista、OCRBench 等 30 多个多模态评测基准的验证中，GLM-4.6V 相比上一代模型有显著提升，尤其在多模态交互、逻辑推理和长上下文处理等关键能力上达到顶尖水平。

9B 版本的 GLM-4.6V-Flash：整体表现超过 Qwen3-VL-8B（8B 参数量），在多模态任务中展现出更高的效率和性能。106B 参数、12B 激活的 GLM-4.6V：性能比肩 2 倍参数量的 Qwen3-VL-235B，证明其在参数效率上的显著优势，能在更少的计算资源下达到类似甚至更好的性能水平。

GLM-4.6V的模型亮点

自主调用工具：模型原生支持基于视觉输入的工具调用，能够处理图文混排、识图购物与导购以及 Agent 场景等更为复杂的视觉任务。128k 上下文窗口：理论上可理解 150 页复杂文档、200 页 PPT 或一小时视频，能够在单次推理中处理多个长文档或长视频。代码能力提升：前端复刻与多轮视觉交互修改能力优化，帮助开发者缩短「设计稿到可运行页面」的链路。同级别 SOTA：在同等参数规模下，模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。