AudioGen-Omni-快手推出的多模态音频生成框架

AudioGen-Omni-快手推出的多模态音频生成框架

文章来源:智汇AI    发布时间:2025-08-14

AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异

暂无访问

AudioGen-Omni是什么

AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异性位置注入(PAAPI)技术,实现精准的视听对齐和跨模态同步。框架支持多语言输入,推理速度快,1.91秒能生成8秒音频,且在多种音频生成任务上表现出色,适用视频配音、语音合成和歌曲创作等场景。

AudioGen-Omni

AudioGen-Omni的主要功能

多模态音频生成:根据视频、文本或两者的组合生成高质量的音频、语音和歌曲。精准视听对齐:基于相位对齐各向异性位置注入(PAAPI)技术,实现音频与视频的唇音同步和节奏对齐。多语言支持:支持多种语言输入,生成对应语言的语音和歌曲。高效推理:推理速度快,1.91秒能生成8秒音频,显著优于同类模型。灵活的输入条件:能处理缺失模态的情况,即使只有视频或只有文本输入,也能生成稳定的音频输出。高质量音频生成:生成的音频在语义和声学表现上与输入高度匹配,支持高保真音频生成。

AudioGen-Omni的技术原理

多模态扩散Transformer(MMDiT):整合视频、音频和文本模态到共享语义空间,支持多种音频生成任务。基于联合训练范式,用大规模视频-文本-音频数据,增强跨模态关联。歌词-文本统一编码器:将文字(grapheme)和音素(phoneme)编码为帧级稠密表示,适配语音和歌唱任务。用多语言统一分词和ConvNeXt细化,生成帧对齐表示。相位对齐各向异性位置注入(PAAPI):选择性地将旋转位置编码(RoPE)应用于时序模态(如视频、音频),提升跨模态时序对齐精度。动态条件机制:基于解冻所有模态并掩码缺失输入,避免文本冻结范式的语义限制,支持灵活的多模态条件生成。联合注意力机制:基于AdaLN(自适应层归一化)增强跨模态特征融合,通过联合注意力机制促进跨模态信息交换。

AudioGen-Omni的项目地址

项目官网:https://ciyou2.github.io/AudioGen-Omni/arXiv技术论文:https://ciyou2.github.io/AudioGen-Omni/

AudioGen-Omni的应用场景

视频配音:为视频自动生成精准匹配的语音、歌曲或音效,提升视频创作效率和内容丰富度。语音合成:将文本快速转换为自然流畅的语音,适用于有声读物、语音助手、智能客服等领域。歌曲创作:根据视频内容或歌词生成匹配的歌曲,辅助音乐创作,丰富视频背景音乐。音效生成:根据文本描述或视频内容生成自然环境音效、动作音效等,增强内容的沉浸感。

相关推荐