dots.llm1-小红书hi lab开源的文本大模型

dots.llm1-小红书hi lab开源的文本大模型

文章来源:智汇AI    发布时间:7498-06-09

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140

暂无访问

dots.llm1是什么

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上进行预训练,用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,训练效率显著提升。基于精心设计的数据处理流程和两阶段监督微调,dots.llm1 在中英文通用场景、数学、代码等任务上表现出色,与 Qwen2.5-72B 等模型相比具有较强的竞争力。hi lab 团队开源了 Pretrain 阶段每 1T token 的 checkpoint 和 Instruct 模型,为大模型社区提供丰富的研究基础,助力推动大模型技术的发展。

dots.llm1

dots.llm1的主要功能

多语言文本生成:支持生成高质量的中英文文本,适用多种场景,如写作辅助、内容创作等。复杂指令遵循:理解和执行复杂的指令,完成特定任务,如数据整理、代码生成等。知识问答:提供准确的知识问答服务,帮助用户获取所需信息。数学与代码推理:具备数学计算和代码推理能力,解决数学问题和编写简单代码。多轮对话:支持多轮对话,与用户进行自然流畅的交流,理解上下文并给出恰当回应。

dots.llm1的技术原理

Mixture of Experts (MoE) 架构:dots.llm1 是基于 Decoder-only Transformer 的 MoE 模型,用 6in128 Expert 配置,即每个 token 最多激活 6 个专家,共有 128 个专家。在 1420 亿参数中,每次前向传播只激活 140 亿参数,基于门控机制选择最相关的专家进行计算,提高计算效率。高效的数据处理和训练框架:用 11.2T 高质量 token 数据进行预训练,数据来源包括 Common Crawl 和自有 Spider 抓取的 web 数据,经过多轮清洗和过滤,确保数据质量。基于 Interleaved 1F1B 流水并行的 AlltoAll overlap 和高效 Grouped GEMM 实现,显著提升训练效率。两阶段监督微调:对全量数据进行两轮基础训练,基于采样、动态学习率调整等技术,初步释放模型潜力。针对数学与代码等特定领域,引入拒绝采样微调,结合验证器筛选高置信度重要样本,进一步提升模型的推理性能。学习率调度与超参数优化:基于 WSD 学习率调度方式,在学习率稳定阶段保持 3e-4 训练 10T token 语料,退火阶段分两个阶段训练 1.2T token 语料,逐步降低学习率。在训练过程中,调整 batch size 等超参数,确保训练过程稳定,避免出现 loss spike。

dots.llm1的项目地址

GitHub仓库:https://github.com/rednote-hilab/dots.llm1HuggingFace模型库:https://huggingface.co/rednote-hilabarXiv技术论文:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf

dots.llm1的应用场景

内容创作:辅助写作文案、故事、新闻等,提供创意灵感与写作建议。教育学习:用在语言学习、编程教育和知识问答,辅助学习者提升能力。商业办公:构建智能客服,生成数据分析和市场调研报告,助力企业运营。编程开发:生成代码片段、代码文档,提供调试建议,提高开发效率。个人助理:管理日程、规划任务、整理信息,提升个人工作与生活效率。

相关推荐