文章来源:智汇AI 发布时间:2025-08-21
AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能
暂无访问AudioGenie是腾讯AI Lab团队推出的多模态音频生成工具,能从视频、文本、图像等多种模态输入生成音效、语音、音乐等多种音频输出。工具采用无训练的多智能体框架,通过生成团队和监督团队的双层架构实现高效协同。生成团队负责将复杂的输入分解为具体的音频子事件,通过自适应混合专家(MoE)协作机制动态选择最适合的模型进行生成。监督团队则负责时空一致性验证,通过反馈循环进行自我纠错,确保生成的音频高度可靠。
AudioGenie建立了全球首个针对多模态到多音频生成(MM2MA)任务的基准测试集MA-Bench,包含198个带有多类型音频注释的视频。在测试中,AudioGenie在9项指标、8项任务中均达到或接近最先进水平,尤其在音质、准确性、内容对齐和美学体验方面表现出色。