文章来源:智汇AI 发布时间:2025-11-16
Bee是清华大学和腾讯混元团队联合推出的高质量多模态大语言模型(MLLM)项目,解决开源模型因数据质量不足导致的性能瓶颈。项目的核心贡献包括:Honey-Dat
暂无访问Bee是清华大学和腾讯混元团队联合推出的高质量多模态大语言模型(MLLM)项目,解决开源模型因数据质量不足导致的性能瓶颈。项目的核心贡献包括:Honey-Data-15M,一个包含约1500万问答对的高质量监督微调数据集,通过多步清洗和双层思维链(CoT)扩充策略提升数据质量;HoneyPipe和DataStudio,开源的数据整理管线和框架,提供透明且可复现的数据处理方法;Bee-8B模型,基于Honey-Data-15M训练的8B参数模型,在多项基准测试中刷新了全开源MLLM的SOTA纪录,性能与一些半开源模型相当甚至更好。
