GLM-TTS-智谱开源的AI文本转语音模型，支持声音克隆

文章来源：智汇AI 发布时间：2025-12-12

GLM-TTS 是智谱开源的AI文本转语音模型，具备声音克隆、多情感表达、高精度文本理解和高质量语音输出等功能。采用两阶段生成范式，通过语义建模和声学建模实现高

暂无访问

GLM-TTS是什么

GLM-TTS 是智谱开源的AI文本转语音模型，具备声音克隆、多情感表达、高精度文本理解和高质量语音输出等功能。采用两阶段生成范式，通过语义建模和声学建模实现高效语音合成。GLM-TTS 支持方言克隆、精细化发音控制和多种情感表达，适用智能语音助手、有声读物、教育、娱乐、客服、无障碍辅助、广告、新闻、智能家居和虚拟主播等场景。GLM-TTS 以低字错误率和高自然度表现，为用户提供灵活、高效、个性化的语音交互体验，推动语音合成技术在多领域的广泛应用。GLM-TTS 已在 GitHub、Hugging Face、ModelScope 等平台开源。

GLM-TTS的主要功能

音色复刻：GLM-TTS 能快速复刻特定说话人的音色，仅需少量音频数据即可实现高度相似的语音合成，支持多种语言和方言的音色克隆。多情感克隆：根据文本内容的情绪自动匹配对应的语音情感，支持多种情感表达，如快乐、悲伤、愤怒等，提升语音合成的自然度和表现力。高精度文本理解：具备超强的文本理解能力，能准确处理文本内容，降低字错误率，确保合成语音的准确性和连贯性。方言和特殊语音合成：支持多种方言和特殊语音的合成，如四川话、东北话等，适应不同语言和文化背景的需求。精细化发音控制：通过音素级输入（Phoneme-in）技术，解决多音字和生僻字的发音问题，提升发音的准确性和可控性。高保真语音输出：基于自研的 2D-Vocos 声码器，生成高质量、高保真的语音波形，支持高采样率输出，提升音质表现。

GLM-TTS的技术原理

两阶段生成范式：GLM-TTS 采用两阶段生成范式，分为语义建模（Text-to-Token）和声学建模与波形重建（Token-to-Wav）。第一阶段通过自回归模型将文本转换为语义 Token 序列，确保内容的准确性和连贯性；第二阶段用 Conditional Flow-matching 模型预测梅尔频谱图，通过 2D-Vocos 声码器将其转换为高质量语音波形。多奖励强化学习：GLM-TTS 引入基于 GRPO 算法框架的多奖励强化学习机制，融合字符错误率（CER）、相似度（Sim）、情感（Emotion）和副语言（如笑声）等多维度奖励，通过动态采样与梯度裁剪策略优化训练过程，显著提升语音的情感表达能力和拟人化程度。精细化发音控制（Phoneme-in）：GLM-TTS 提供 Phoneme-in 技术，通过动态可控词典和混合输入形式，为多音字和生僻字提供目标音素，实现精准发音控制。在推理阶段，系统将音素序列与文本结合输入模型，保留文本韵律的同时确保发音准确。精品音色定制（LoRA）：GLM-TTS 采用优化的 LoRA 微调范式，仅需微调约 15% 的模型参数，结合少量高质量音频数据，实现与全参数微调相当的音色还原度和自然度，大幅降低音色定制的开发成本和落地门槛，提升音色的泛化能力和跨场景稳定性。数据处理与特征提取：GLM-TTS 构建了完善的数据处理 Pipeline，包括语音标准化、背景音分离与降噪、说话人分离与拼接、WER 筛选、标点优化和特征提取等步骤，从异构音频中提取纯净语音和高质量特征，为模型训练提供可靠数据支持。模型结构优化：GLM-TTS 对 Speech Tokenizer 进行优化，提升 Token 码率和词表规模，引入音调估计模块（PE），取消因果卷积限制，优化音调建模精度；同时，2D-Vocos 声码器通过 2D 卷积和类 DiT 残差连接，提升频谱特征的解析精度和音质表现，增强模型对复杂声线的适应性。

GLM-TTS的项目地址

GitHub仓库：https://github.com/zai-org/GLM-TTSHuggingFace模型库：https://huggingface.co/zai-org/GLM-TTS

如何使用GLM-TTS

在线体验：访问 https://audio.z.ai/ ，上传文本或语音 Prompt，即可快速生成语音。API 调用：通过智谱AI开放平台获取 API 密钥，根据文档发送请求，将文本或音色需求发送到 GLM-TTS 服务端，获取合成语音。本地部署：从 GitHub、Hugging Face 或魔搭社区下载模型资源，在本地 GPU 环境中部署，进行二次开发或定制化使用。