MOSS-TTSD-清华实验室开源的口语对话语音生成模型

MOSS-TTSD-清华实验室开源的口语对话语音生成模型

文章来源:智汇AI    发布时间:2025-08-12

MOSS-TTSD(Text to Spoken Dialogue)是开源的口语对话语音生成模型,由清华大学语音与语言实验室(Tencent AI Lab)开发

暂无访问

MOSS-TTSD是什么

MOSS-TTSD(Text to Spoken Dialogue)是开源的口语对话语音生成模型,由清华大学语音与语言实验室(Tencent AI Lab)开发。能将文本对话脚本转化为自然流畅、富有表现力的对话语音,支持中英文双语生成。模型基于先进的语义-音学神经网络音频编解码器和大规模预训练语言模型,结合了超过100万小时的单人语音数据和40万小时的对话语音数据进行训练。支持零样本语音克隆,能根据对话脚本生成准确的对话者切换语音,适用于AI播客、访谈、新闻报道等多种场景。

MOSS-TTSD

MOSS-TTSD的主要功能

高表现力对话语音生成:能将对话脚本转换为自然、富有表现力的对话语音,准确捕捉对话中的韵律、语调等特性。

相关推荐