VoxCPM1.5-面壁智能开源的端到端语音合成模型

VoxCPM1.5-面壁智能开源的端到端语音合成模型

文章来源:智汇AI    发布时间:2025-12-12

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生

暂无访问

VoxCPM1.5是什么

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生成连续语音,支持 44.1kHz 高采样率音频克隆,生成效果更细腻。同时,模型生成效率翻倍,仅需 6.25 个 token 即可生成 1 秒音频,且稳定性增强,减少伪影。VoxCPM 1.5 提供深度定制功能,支持 LoRA 和全量微调,助力开发者打造个性化语音模型。

VoxCPM1.5

VoxCPM1.5的主要功能

高采样率音频克隆:支持 44.1kHz 采样率,能根据高质量音频克隆出细节更丰富的声音。

相关推荐