文章来源:智汇AI 发布时间:2025-08-05
Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型,经过超过1250万小时的多语种音频数据训练,支持英语、西班牙语、
暂无访问Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型,经过超过1250万小时的多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在多种环境下都能提供高准确率的语音转文字服务,包括嘈杂背景、不同口音和自然对话等,还具备快速响应时间和改进的时间戳准确性。Universal-1的设计注重于提高每一处语音识别的准确性,能够满足客户对语音数据细微差别的需求,是构建下一代AI产品和服务的强大工具。

非英语语音转文字准确性:在西班牙语、法语和德语的测试中,Universal-1在15个数据集中的5个上WER更低,显示了其在这些语言上的竞争力。
时间戳准确性:Universal-1在时间戳准确性方面,相比于Whisper Large-v3,将预测时间戳在100毫秒内的单词比例提高了25.5%,从67.2%提升到84.3%。
推理效率:在NVIDIA Tesla T4机器上,Universal-1在没有并行化的情况下比更快的whisper后端快3倍,且在64个并行化推理时,仅需21秒即可转录1小时的音频。幻觉减少:Universal-1相比于Whisper Large-v3,在转录音频时的幻觉率降低了30%。人类偏好测试:在人类偏好测试中,评估者在60%的情况下更倾向于Universal-1的输出,而Conformer-2只有24%。
声纹分割聚类:Universal-1在声纹分割聚类(Speaker Diarization)准确性方面,相比于Conformer-2,实现了以下改进:Diarization Error Rate (DER) 相对减少了7.7%。联合测量WER和演讲者标记准确性的cpWER相对减少了13.6%。演讲者数量估计的准确性相对提高了71.3%。目前,Universal-1已推出英语和西班牙语版本,德语和法语版本即将推出。后续,AssemblyAI还将在未来的通用模型中添加额外的语言支持。感兴趣的用户可以在Playground或通过API试用。
通过Playground试用:最简单的尝试Universal-1的方式是通过AssemblyAI的Playground。在Playground中,用户可以直接上传音频文件或者输入YouTube链接,然后模型会快速生成文字转录。免费API试用:用户可以免费注册并获取一个API令牌(API token)。注册后,前往AssemblyAI的文档(Docs)或Welcome Colab,这些资源可帮助快速开始使用API。更多关于Universal-1的信息,详见AssemblyAI的官方技术报告:https://www.assemblyai.com/discover/research/universal-1