文章来源:智汇AI 发布时间:2025-08-08
小红书 hi lab 表示,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。
暂无访问智汇AI8月6日消息,小红书hilab研发并开源的首个多模态大模型dots.vlm1今日正式发布,借助一个从零训练的12亿参数视觉编码器以及基于DeepSeekV3LLM构建。
小红书hilab表示,dots.vlm1在大部分多模态评测集上接近闭源SoTA模型的水平,并在文本能力和主流文本模型相当。
NaViT视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的ImageCaption数据上还引入大量结构化图片进行原生训练,提升VLM模型的感知能力(例如各类OCR能力)。
多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格/Chart/文档/Graphics等)及其描述(例如AltText/DenseCaption/Grounding等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;
通过大规模预训练与精细化后训练调优,dots.vlm1在视觉感知与推理方面达到了接近SOTA的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。
在主要的视觉评测集上,dots.vlm1的整体表现已接近当前领先模型Gemini2.5Pro与Seed-VL1.5thinking,尤其在MMMU/MathVision/OCRReasoning等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。
在典型的文本推理任务(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表现大致相当于DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在GPQA等更多样的推理任务上仍存在差距。
总体来看,dots.vlm1在视觉多模态能力方面已接近SOTA水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。
复杂图表推理样例:
STEM解题样例:
长尾识别解题样例:
视觉推理样例:
智汇AI附dots.vlm1开源地址:
https://github.com/rednote-hilab/dots.vlm1