dots.vlm1-小红书hi lab开源的首个多模态大模型

dots.vlm1-小红书hi lab开源的首个多模态大模型

文章来源:智汇AI    发布时间:2025-08-14

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模

暂无访问

dots.vlm1是什么

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练,原生支持动态分辨率,在文本监督基础上增加了纯视觉监督,提升了感知能力。训练数据引入了多种合成数据思路,覆盖多样的图片类型及其描述,显著提升了数据质量。

dots.vlm1

dots.vlm1的主要功能

强大的视觉理解能力:能准确识别和理解图像中的内容,包括复杂图表、表格、文档、图形等,支持动态分辨率,适用于多种视觉任务。

相关推荐