Bee-清华联合腾讯开源的全栈多模态大模型解决方案

Bee-清华联合腾讯开源的全栈多模态大模型解决方案

文章来源:智汇AI    发布时间:2025-11-16

Bee是清华大学和腾讯混元团队联合推出的高质量多模态大语言模型(MLLM)项目,解决开源模型因数据质量不足导致的性能瓶颈。项目的核心贡献包括:Honey-Dat

暂无访问

Bee是什么

Bee是清华大学和腾讯混元团队联合推出的高质量多模态大语言模型(MLLM)项目,解决开源模型因数据质量不足导致的性能瓶颈。项目的核心贡献包括:Honey-Data-15M,一个包含约1500万问答对的高质量监督微调数据集,通过多步清洗和双层思维链(CoT)扩充策略提升数据质量;HoneyPipe和DataStudio,开源的数据整理管线和框架,提供透明且可复现的数据处理方法;Bee-8B模型,基于Honey-Data-15M训练的8B参数模型,在多项基准测试中刷新了全开源MLLM的SOTA纪录,性能与一些半开源模型相当甚至更好。

Bee

Bee的主要功能

高质量数据集构建:发布Honey-Data-15M,一个经过精细清洗和双层思维链(CoT)扩充的1500万规模的监督微调数据集,显著提升数据质量,为多模态大模型训练提供坚实基础。

相关推荐