LLMs-from-scratch:从零构建大模型

AI快讯 2025-05-07 16:27更新网络

“LLMs-from-scratch” 是一个开源项目,由 Sebastian Raschka 创建,目的是帮助开发者从零开始实现一个类似 ChatGPT 的大型语言模型。这个项目是与他的书籍《Build a Large Language Model (From Scratch)》配套的官方代码仓库。

项目目标

从零开始构建 LLM:通过逐步编码的方式,帮助读者深入理解 LLM 的内部机制。

预训练和微调:提供完整的代码示例,用于在未标记数据上进行预训练,以及针对特定任务进行微调。

教育目的:通过构建小型但功能完备的模型,帮助读者理解大型模型的开发过程。

LLMs-from-scratch:从零构建大模型.webp

主要功能结构

第 2 章:处理文本数据

实现从零开始的字节对编码(BPE)分词器。

提供数据加载器的实现和总结。

第 3 章:实现注意力机制

实现多头注意力机制。

第 4 章:从零开始实现 GPT 模型

提供完整的 GPT 模型代码。

第 5 章:在未标记数据上进行预训练

提供预训练代码和生成器代码。

第 6 章:针对文本分类进行微调

提供针对文本分类任务的微调代码。

第 7 章:针对指令跟随进行微调

提供指令微调代码和评估代码。

LLMs-from-scratch适合对自然语言处理和深度学习感兴趣的学习者,尤其是希望从零开始构建大型语言模型的开发者。

LLMs-from-scratch:从零构建大模型~tplv-tlddhu82om-image.webp

英文原版地址:https://github.com/rasbt/LLMs-from-scratch

中文资源地址:https://github.com/MLNLP-World/LLMs-from-scratch-CN

相关文章