文章来源:智汇AI 发布时间:2025-07-01
近日,国内人工智能新锐DeepSeek发布了其自研的“高质量、大规模”中文语料库,旨在为行业提供高质量的预训练数据。据了解,该数据集涵盖了高质量
访问官网近日,国内人工智能新锐DeepSeek发布了其自研的“高质量、大规模”中文语料库,旨在为行业提供高质量的预训练数据。据了解,该数据集涵盖了高质量的文本数据以及代码数据,可用于训练各类中文语言模型。
在具体数据方面,截至2024年6月,DeepSeek已经开源了包含1.64万亿token的数据集。与以往开源的数据集不同,此次开源包含了代码数据,使得2023年开源的数据集总量达到3.895万亿token,并在一年内增长了近20%。展望2024年,其数据集规模将持续扩大,预计增长率将超过207.19%,达到1.2万亿token。