文章来源:智汇AI 发布时间:2025-12-18
通义百聆是阿里通义实验室推出的企业级语音基座大模型,整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型,专为复杂环境下的语音应用设计
暂无访问通义百聆是阿里通义实验室推出的企业级语音基座大模型,整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型,专为复杂环境下的语音应用设计,通过 Context 增强架构大幅降低幻觉率,解决串语种问题,支持热词动态注入和精准识别行业术语。模型语音合成能力支持跨语种克隆,声音相似度领先。基于海量真实音频训练,覆盖金融、教育等多行业,能快速部署,助力企业高效落地语音应用。
通义百聆最新升级, Fun-CosyVoice3 模型升级后,首包延迟降低50%,中英混字准确率翻倍,支持9种通用语言、18种方言口音以及跨语种克隆与情感控制,具备zero-shot音色克隆能力,可实现更高效、自然的语音合成。同时,Fun-ASR 模型能力显著增强,噪声场景下识别准确率提升至93%,支持31种语言自由混说、方言口音覆盖,新增歌词与说唱识别能力,流式识别首字延迟降低到160ms,让语音识别更精准、更快速。
