TigerBot大模型系列的详细介绍

AI教程 2024-11-26 17:40更新网络

一、模型概述

TigerBot本身就是一个大模型系列,由虎博科技(Tiger Research)开发的一系列开源大规模语言模型。TigerBot自2023年首次发布以来,经历了多次迭代升级,不断提升其性能和功能。它基于GPT和BLOOM两个开源模型进行研发,在模型架构、算法以及计算经济性等方面做了一系列优化。

二、模型系列

TigerBot提供了一系列不同规模和用途的模型,主要包括:

  1. TigerBot-7B:适用于资源受限的场景,提供基础(base)和对话(chat)两个版本。
  2. TigerBot-13B:中型模型,在性能和资源需求间取得良好平衡。
  3. TigerBot-70B:大规模模型,性能强大,适用于复杂任务。它是在Llama-2-70b的基础上,通过300B tokens多语言数据继续预训练而来,着重于数据的质量和多样性。
  4. TigerBot-180B:超大规模模型,具有最强的性能,适用于高要求的应用场景。

每个系列都包含基础模型(base)和对话模型(chat),以及不同的量化版本(如4-bit、8-bit),以适应不同的硬件环境和应用需求。

三、技术创新

TigerBot在模型架构和训练方法上进行了多项创新,以提升模型的性能和实用性。这些创新包括:

  1. 全局训练方法:采用Holistic Training全局训练方法,在预训练阶段就使模型具备了强大的指令遵循能力。
  2. 指令完成监督微调:运用创新的指令完成监督微调算法,以提升模型的可学习性。
  3. 可控性和创造性平衡:运用ensemble和probabilistic modeling的方法,实现更可控的事实性(factuality)和创造性(generativeness),进一步避免模型可能产生的“胡说八道”。
  4. 并行训练优化:在并行训练上,突破了deep-speed等主流框架中的内存和通信问题,使得在千卡环境下数月无间断训练成为可能,不仅大大缩短了模型训练的时间,还降低了训练成本。
  5. 中文语言优化:针对中文语言更不规则的分布,从tokenizer到训练算法等方面做了针对性算法优化,使得模型的问答更具中国文化属性。

相关文章