文章来源:智汇AI 发布时间:2025-08-06
Mora是由来自微软和理海大学的研究人员推出的一个多智能体(AI Agents)框架,专门用于通用视频生成任务,目标是模拟并扩展OpenAI的Sora视频生成模
暂无访问Mora是由来自微软和理海大学的研究人员推出的一个多智能体(AI Agents)框架,专门用于通用视频生成任务,目标是模拟并扩展OpenAI的Sora视频生成模型。该框架的核心理念是通过多个视觉智能体的协作来生成高质量的视频内容,Mora通过分解视频生成过程为多个子任务,并为每个子任务分配一个专门的智能体,从而实现了各种视频生成的功能。
根据论文中的实验结果显示,Mora在生成高分辨率(1024×576)且时间持续12秒的视频方面表现出色,总共包含75帧。但当涉及大量物体运动的场景时,Mora与Sora相比存在显著的性能差距。此外,尝试生成超过12秒的视频会导致视频质量显著下降。
Mora的工作原理基于一个多智能体框架,该框架通过协同多个专门化的AI智能体来完成视频生成任务。每个智能体都负责处理特定的子任务,这些子任务共同构成了完整的视频生成流程。
以下是Mora工作流程的详细步骤:
任务分解:Mora将复杂的视频生成任务分解为多个子任务,每个子任务都由一个专门的智能体来处理。智能体角色定义:Mora定义了以下五种基本角色的智能体:提示选择与生成智能体:使用大型语言模型(如GPT-4或Llama)来优化和选择文本提示,以提高生成图像的相关性和质量。文本到图像生成智能体:将文本提示转换为高质量的初始图像。图像到图像生成智能体:根据文本指令修改给定的源图像。图像到视频生成智能体:将静态图像转换成动态视频序列。视频连接智能体:基于两个输入视频创建平滑过渡的视频。工作流程:Mora根据任务需求,自动组织智能体按照特定的顺序执行子任务。例如,文本到视频的生成任务可能包括以下步骤:首先,提示选择与生成智能体处理文本提示。接着,文本到图像生成智能体根据优化后的文本提示生成初始图像。然后,图像到视频生成智能体将初始图像转换成视频序列。最后,如果需要,视频连接智能体可以将多个视频片段连接成一个连贯的视频。多智能体协作:智能体之间通过预定义的接口和协议进行通信和协作,确保整个视频生成过程的连贯性和一致性。生成与评估:每个智能体完成其子任务后,会将结果传递给下一个智能体,直至完成整个视频生成流程。生成的视频可以根据预定义的评估标准进行质量评估。迭代与优化:Mora框架允许通过迭代和优化来改进视频生成的质量。智能体可以根据反馈调整其参数,以提高生成视频的质量和与文本提示的一致性。