GLM-ASR-智谱开源的语音识别系列模型

GLM-ASR-智谱开源的语音识别系列模型

文章来源:智汇AI    发布时间:2025-12-11

GLM-ASR是智谱AI推出的系列语音识别模型,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先

暂无访问

GLM-ASR是什么

GLM-ASR是智谱推出的语音识别模型系列,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语种、多口音,字符错误率仅为0.0717。GLM-ASR-Nano-2512是1.5B参数的端侧模型,性能达到开源领域SOTA,支持方言识别、低音量语音捕捉,兼顾隐私保护和低延迟。基于此模型,智谱AI输入法可实现语音转文字、翻译、改写等功能,推动语音交互向高效、智能方向发展。

GLM-ASR

GLM-ASR的主要功能

精准语音转文字:模型能将语音实时转换为文字,支持多场景、多语种和多口音,字符错误率低,确保高精度识别。方言与低音量识别:模型优化了对粤语等方言的支持,在低音量(如耳语)场景下能准确捕捉和转录语音。端侧隐私保护:GLM-ASR-Nano-2512可在本地运行,无需上传语音数据到云端,保护用户隐私,同时降低交互延迟。智能交互与功能拓展:基于GLM-ASR的智谱AI输入法支持翻译、改写、情绪转化等操作,提供“人设”切换功能,适应不同场景的表达需求。开发者支持:为开发者提供“语感编程”功能,支持通过语音输入代码逻辑和注释,查找指令,完成复杂数学计算或脚本编写。专属词汇定制:用户能导入专属词汇、项目代号、生僻人名和地名等,提升特定领域的识别准确率。

GLM-ASR的性能表现

GLM-ASR-2512:在多场景、多语种、多口音的复杂环境中,字符错误率(CER)仅为0.0717,处于行业领先水平。

相关推荐