VibeVoice-ASR-微软开源的长音频语音识别模型

VibeVoice-ASR-微软开源的长音频语音识别模型

文章来源:智汇AI    发布时间:2026-01-23

VibeVoice-ASR 是微软开源的先进语音识别模型,专为处理长达60分钟的长音频设计。模型能一次性处理整段音频,保持全局上下文,避免传统模型分段处理导致的

暂无访问

VibeVoice-ASR是什么

VibeVoice-ASR 是微软开源的先进语音识别模型,专为处理长达60分钟的长音频设计。模型能一次性处理整段音频,保持全局上下文,避免传统模型分段处理导致的上下文丢失。模型生成的转录文本包含语音内容,能标注说话者身份和时间戳,支持用户添加自定义热词,提高特定领域的识别准确性。VibeVoice-ASR 强大的功能使模型在长音频转录和多说话者场景中表现出色,广泛应用于会议记录、讲座转录等场景。

VibeVoice-ASR

VibeVoice-ASR的主要功能

长音频单次处理:模型支持长达60分钟的音频输入,一次性处理整段音频,保持全局上下文,避免分段处理导致的上下文丢失。

相关推荐