文章来源:智汇AI 发布时间:2025-07-17
在语音成机器交流关键方式的当下,法国初创企业 Mistral 推出首个开源音频模型 Voxtral,打破大型企业封闭系统垄断。它以经济优势、强大功能、多样变体,为开发者与企业带来新选择,还与推理模型…
暂无访问在人工智能技术一日千里的当下,语音已然成为我们和机器交流的主要“桥梁”。最近,法国初创企业Mistral搞出了个大动静——正式推出首个开源音频模型Voxtral,这无疑是在AI音频领域投下了一颗重磅炸弹,有望打破大型企业封闭系统的垄断局面,给开发者带来全新的选择。
Mistral推出的开源音频模型Voxtral可太厉害了!它旨在打破大型企业封闭系统在音频领域的垄断,给开发者提供更灵活且经济的选择。
Voxtral能转录长达30分钟的音频,基于MistralSmall3.1大模型,还能理解最长40分钟的音频内容,你不仅能针对音频提问、生成摘要,甚至能将语音指令转化为实时操作,比如调用API。
它还支持多语言,英语、西班牙语、法语等多种语言都不在话下。Mistral提供了VoxtralSmall和VoxtralMini等不同版本,前者有240亿个参数,适合生产级部署;后者有30亿个参数,适用于本地和边缘部署,还有专为转录场景优化的超经济版。
你可以通过HuggingFace免费下载其API,或者在Mistral的聊天机器人LeChat中测试,API集成费用也比较亲民,从每分钟0.001美元起。
Voxtral的功能十分强大。它可以转录长达30分钟的音频,基于大型语言模型MistralSmall3.1,还能让用户理解最长40分钟的音频内容。这意味着什么呢?比如,你在听一场长达40分钟的讲座,用Voxtral就能轻松理解讲座里的关键信息。
不仅如此,用户还能针对音频内容提出问题,让Voxtral生成摘要,甚至把语音指令转化为实时操作。想象一下,你只需说一句指令,它就能帮你调用API或者执行特定功能,是不是特别方便?
另外,Voxtral还具备多语言支持能力,能理解和转录英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等多种语言。这对于跨国企业或者需要处理多语言音频内容的人来说,简直是福音。
Mistral深知不同用户有不同的需求,所以提供了两种“语音理解模型”的变体。
VoxtralSmall拥有240亿个参数,适合生产级部署。在市场上,它要和ElevenLabsScribe、GPT-4o-mini和Gemini2.5Flash等模型一较高下。对于那些对音频处理有较高要求,且需要在生产环境中大规模应用的企业来说,VoxtralSmall是个不错的选择。
VoxtralMini具有30亿个参数,更适用于本地和边缘部署。如果你不想把数据都上传到云端,或者需要在一些资源有限的设备上使用音频模型,VoxtralMini就能满足你的需求。
还有一个超经济版的3亿参数模型——VoxtralMiniTranscribe,它专为转录场景优化。Mistral承诺,它的性能超越OpenAI的Whisper,但价格却不到其一半。对于那些主要需求是音频转录的用户来说,这无疑是个极具性价比的选择。
用户获取Voxtral也非常方便。你可以通过HuggingFace免费下载Voxtral的API,或者在Mistral的聊天机器人LeChat中进行测试。而且,API的集成费用从每分钟0.001美元起,这样的价格对于大多数开发者和企业来说,都非常容易接受。
值得一提的是,此次Voxtral的发布,恰逢Mistral一个月前推出的推理模型Magistral。这两个模型通过逐步解决问题来提高可靠性,为用户提供更稳定、高效的服务。
VoxtralMini模型地址:https://huggingface.co/mistralai/Voxtral-Mini-3B-2507
VoxtralSmall模型地址:https://huggingface.co/mistralai/Voxtral-Small-24B-2507
官网地址:MistralAI网页版官网入口
作为欧洲顶尖的人工智能公司之一,Mistral一直以来都是开源AI模型的积极推动者。近期还有消息称,Mistral正在与投资者洽谈,计划筹集高达10亿美元的资金,其中就包括阿布扎比的MGX基金。有了资金的支持,Mistral在开源AI音频模型领域的探索和发展无疑会更有底气。
Mistral发布的Voxtral为开源AI音频模型带来了新的活力和可能。它的出现,不仅为开发者提供了更多选择,也为AI音频领域的发展注入了新的动力。未来,我们期待Voxtral能不断优化和完善,在更多领域发挥重要作用。