文章来源:智汇AI 发布时间:2025-08-14
dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模
暂无访问dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练,原生支持动态分辨率,在文本监督基础上增加了纯视觉监督,提升了感知能力。训练数据引入了多种合成数据思路,覆盖多样的图片类型及其描述,显著提升了数据质量。