文章来源:智汇AI 发布时间:2025-09-01
面壁智能 8 月 26 日宣布开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型。
暂无访问智汇AI8月27日消息,面壁智能8月26日宣布开源8B参数的面壁小钢炮MiniCPM-V4.5多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型。
MiniCPM-V4.5号称高刷视频理解、长视频理解、OCR、文档解析能力同级SOTA,且性能超过Qwen2.5-VL72B,号称“最强端侧多模态模型”。
面壁智能介绍称,此前主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取1fps抽帧,即每秒只能截取1帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。
MiniCPM-V4.5是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉Token量开销下的情况下,最大可接收6倍视频帧数量,达到96倍视觉压缩率,是同类模型的12-24倍。
MiniCPM-V4.5通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,面对一闪而过的画面,MiniCPM-V4.5要比Gemini-2.5-Pro、GPT-5、GPT-4o等代表性云端模型看得更准、更细。
在MotionBench、FavorBench两项体现高刷视频理解能力的榜单中,MiniCPM-V4.5达到同尺寸SOTA,且超过Qwen2.5-VL72B,实现越级领先水平。
MiniCPM-V4.5凭借8B参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。
图片理解性能上,MiniCPM-V4.5在OpenCompass测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro等众多闭源模型,甚至超过Qwen2.5-VL72B,实现越级领先。
视频理解性能上,MiniCPM-V4.5在LVBench、MLVU、Video-MME、LongVideoBench等榜单中,均达到同级最佳水平。
在复杂文档识别任务中,MiniCPM-V4.5在OmniDocBench榜单的OverallEdit、TextEdit、TableEdit三项指标上,均取得了通用多模态模型同级别的SOTA表现。
此外,MiniCPM-V4.5同时支持常规模式和深度思考模式,实现了性能与响应速度的平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。
在视频理解榜单VideoMME、以及单图OpenCompass测试中,MiniCPM-V4.5达到同级SOTA水平,显存占用、平均推理时间等方面实现领先。
其中,在覆盖短、中、长三种类型的视频理解评测集Video-MME上,MiniCPM-V4.5采用3帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的1/10。
智汇AI附模型开源链接:
Github:https://github.com/OpenBMB/MiniCPM-o
HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-4_5
ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5