GLM-TTS-智谱开源的AI文本转语音模型,支持声音克隆

GLM-TTS-智谱开源的AI文本转语音模型,支持声音克隆

文章来源:智汇AI    发布时间:2025-12-12

GLM-TTS 是智谱开源的AI文本转语音模型,具备声音克隆、多情感表达、高精度文本理解和高质量语音输出等功能。采用两阶段生成范式,通过语义建模和声学建模实现高

暂无访问

GLM-TTS是什么

GLM-TTS 是智谱开源的AI文本转语音模型,具备声音克隆、多情感表达、高精度文本理解和高质量语音输出等功能。采用两阶段生成范式,通过语义建模和声学建模实现高效语音合成。GLM-TTS 支持方言克隆、精细化发音控制和多种情感表达,适用智能语音助手、有声读物、教育、娱乐、客服、无障碍辅助、广告、新闻、智能家居和虚拟主播等场景。GLM-TTS 以低字错误率和高自然度表现,为用户提供灵活、高效、个性化的语音交互体验,推动语音合成技术在多领域的广泛应用。GLM-TTS 已在 GitHub、Hugging Face、ModelScope 等平台开源。

GLM-TTS

GLM-TTS的主要功能

音色复刻:GLM-TTS 能快速复刻特定说话人的音色,仅需少量音频数据即可实现高度相似的语音合成,支持多种语言和方言的音色克隆。多情感克隆:根据文本内容的情绪自动匹配对应的语音情感,支持多种情感表达,如快乐、悲伤、愤怒等,提升语音合成的自然度和表现力。高精度文本理解:具备超强的文本理解能力,能准确处理文本内容,降低字错误率,确保合成语音的准确性和连贯性。方言和特殊语音合成:支持多种方言和特殊语音的合成,如四川话、东北话等,适应不同语言和文化背景的需求。精细化发音控制:通过音素级输入(Phoneme-in)技术,解决多音字和生僻字的发音问题,提升发音的准确性和可控性。高保真语音输出:基于自研的 2D-Vocos 声码器,生成高质量、高保真的语音波形,支持高采样率输出,提升音质表现。

GLM-TTS的技术原理

两阶段生成范式:GLM-TTS 采用两阶段生成范式,分为语义建模(Text-to-Token)和声学建模与波形重建(Token-to-Wav)。第一阶段通过自回归模型将文本转换为语义 Token 序列,确保内容的准确性和连贯性;第二阶段用 Conditional Flow-matching 模型预测梅尔频谱图,通过 2D-Vocos 声码器将其转换为高质量语音波形。多奖励强化学习:GLM-TTS 引入基于 GRPO 算法框架的多奖励强化学习机制,融合字符错误率(CER)、相似度(Sim)、情感(Emotion)和副语言(如笑声)等多维度奖励,通过动态采样与梯度裁剪策略优化训练过程,显著提升语音的情感表达能力和拟人化程度。精细化发音控制(Phoneme-in):GLM-TTS 提供 Phoneme-in 技术,通过动态可控词典和混合输入形式,为多音字和生僻字提供目标音素,实现精准发音控制。在推理阶段,系统将音素序列与文本结合输入模型,保留文本韵律的同时确保发音准确。精品音色定制(LoRA):GLM-TTS 采用优化的 LoRA 微调范式,仅需微调约 15% 的模型参数,结合少量高质量音频数据,实现与全参数微调相当的音色还原度和自然度,大幅降低音色定制的开发成本和落地门槛,提升音色的泛化能力和跨场景稳定性。数据处理与特征提取:GLM-TTS 构建了完善的数据处理 Pipeline,包括语音标准化、背景音分离与降噪、说话人分离与拼接、WER 筛选、标点优化和特征提取等步骤,从异构音频中提取纯净语音和高质量特征,为模型训练提供可靠数据支持。模型结构优化:GLM-TTS 对 Speech Tokenizer 进行优化,提升 Token 码率和词表规模,引入音调估计模块(PE),取消因果卷积限制,优化音调建模精度;同时,2D-Vocos 声码器通过 2D 卷积和类 DiT 残差连接,提升频谱特征的解析精度和音质表现,增强模型对复杂声线的适应性。

GLM-TTS的项目地址

GitHub仓库:https://github.com/zai-org/GLM-TTSHuggingFace模型库:https://huggingface.co/zai-org/GLM-TTS

如何使用GLM-TTS

在线体验:访问 https://audio.z.ai/ ,上传文本或语音 Prompt,即可快速生成语音。API 调用:通过智谱AI开放平台获取 API 密钥,根据文档发送请求,将文本或音色需求发送到 GLM-TTS 服务端,获取合成语音。本地部署:从 GitHub、Hugging Face 或魔搭社区下载模型资源,在本地 GPU 环境中部署,进行二次开发或定制化使用。

GLM-TTS的应用场景

智能语音助手:GLM-TTS 为智能语音助手提供自然流畅的语音反馈,支持多语言和情感表达,根据用户指令生成贴合场景的语音交互,提升用户体验。

相关推荐