LongCat-Audio-Codec-美团开源的语音编解码方案

LongCat-Audio-Codec-美团开源的语音编解码方案

文章来源:智汇AI    发布时间:2025-10-27

LongCat-Audio-Codec 是美团 LongCat 团队开源的语音编解码方案,专为语音大语言模型(Speech LLM)设计。通过语义和声学双 To

暂无访问

LongCat-Audio-Codec是什么

LongCat-Audio-Codec 是美团 LongCat 团队开源的语音编解码方案,专为语音大语言模型(Speech LLM)设计。通过语义和声学双 Token 并行提取机制,兼顾语音的语义理解与声学特征保留,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,将解码延迟控制在百毫秒级,满足车载语音助手、实时翻译等场景的需求。具备超低比特率高保真与集成超分辨率设计,在极低比特率下实现高保真音频重建,同时提升输出音频的采样率和自然度。LongCat-Audio-Codec 提供了一站式的 Token 生成器与还原器工具链,支持灵活的码本配置,可根据下游任务调整码本数量,适应不同场景。其多阶段训练策略进一步优化了高压缩率和高音质的平衡。

LongCat-Audio-Codec

LongCat-Audio-Codec的主要功能

语义与声学并行 Token 化:将原始音频信号映射为语义与声学并行的 token 序列,兼顾语音的语义信息和声学特征。

相关推荐