Chroma 1.0-FlashLabs开源的实时端到端语音对话模型

Chroma 1.0-FlashLabs开源的实时端到端语音对话模型

文章来源:智汇AI    发布时间:2026-01-23

Chroma 1.0 是FlashLabs首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。模型通过紧密耦合语音理解与生成,采

暂无访问

Chroma 1.0是什么

Chroma 1.0 是FlashLabs首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。模型通过紧密耦合语音理解与生成,采用1:2文本-音频token调度策略,实现亚秒级延迟输出。仅需几秒参考音频,能高度还原说话人的音色特征,speaker相似度比人类基线高出10.96%。模型仅4B参数,在推理和口语对话任务中表现优异,兼顾效率与性能。

FlashLabs Chroma 1.0

Chroma 1.0的主要功能

实时语音交互:支持低延迟的语音对话,端到端延迟低于1秒,适合实时交互场景。

相关推荐