通义百聆-阿里通义推出的企业级语音基座大模型

文章来源：智汇AI 发布时间：2025-12-18

通义百聆是阿里通义实验室推出的企业级语音基座大模型，整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型，专为复杂环境下的语音应用设计

暂无访问

通义百聆是什么

通义百聆是阿里通义实验室推出的企业级语音基座大模型，整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型，专为复杂环境下的语音应用设计，通过 Context 增强架构大幅降低幻觉率，解决串语种问题，支持热词动态注入和精准识别行业术语。模型语音合成能力支持跨语种克隆，声音相似度领先。基于海量真实音频训练，覆盖金融、教育等多行业，能快速部署，助力企业高效落地语音应用。

通义百聆最新升级， Fun-CosyVoice3 模型升级后，首包延迟降低50%，中英混字准确率翻倍，支持9种通用语言、18种方言口音以及跨语种克隆与情感控制，具备zero-shot音色克隆能力，可实现更高效、自然的语音合成。同时，Fun-ASR 模型能力显著增强，噪声场景下识别准确率提升至93%，支持31种语言自由混说、方言口音覆盖，新增歌词与说唱识别能力，流式识别首字延迟降低到160ms，让语音识别更精准、更快速。