MoE-TTS-昆仑万维推出的语音合成框架

MoE-TTS-昆仑万维推出的语音合成框架

文章来源:智汇AI    发布时间:2025-08-18

MoE-TTS 是昆仑万维语音团队推出的首个基于MOE的角色描述语音合成框架,专门用在提升对开放域文本描述的理解能力。模型通过混合专家(Mixture-of-E

暂无访问

MoE-TTS是什么

MoE-TTS 是昆仑万维语音团队推出的首个基于MOE的角色描述语音合成框架,专门用在提升对开放域文本描述的理解能力。模型通过混合专家(Mixture-of-Experts,MoE)架构,将预训练的大型语言模型(LLM)与语音专家模块相结合。在训练中冻结文本模块参数,仅更新语音模块参数,保留 LLM 的强大文本理解能力,同时增强语音生成的准确性。实验表明,MoE-TTS 在生成与描述更贴合的语音方面,显著优于现有的商业模型,尤其在处理复杂和开放域描述时表现出色。

MoE-TTS

MoE-TTS的主要功能

增强开放域文本理解:能准确理解并生成与复杂、开放域文本描述相匹配的语音,支持描述在训练数据中未曾出现。自然语言描述驱动:用户能通过自然语言描述(如“充满活力的少年音”或“带有纽约口音的演员”)精准控制语音的风格和特征。高质量语音生成:生成的语音在自然度、情感表达和风格一致性上表现出色,显著优于传统 TTS 模型。跨模态知识迁移:将预训练语言模型的强大文本理解能力迁移到语音生成任务中,提升模型对复杂语义的理解和表达能力。

MoE-TTS的技术原理

预训练 LLM 作为基础模型:基于预训练的文本 LLM作为基础模型,冻结参数保留强大的文本理解能力。

相关推荐