MusicInfuser-一个可以根据音乐和文本生成舞蹈视频的模型

MusicInfuser-一个可以根据音乐和文本生成舞蹈视频的模型

文章来源：智汇AI 发布时间：2025-04-03

MusicInfuser 是一个将文本到视频扩散模型与音乐对齐的项目，能够根据音乐和文本生成舞蹈视频。它通过引入音乐-视频交叉注意力机制，使生成的视频能够与音乐节奏同步。

暂无访问

MusicInfuser 是什么？

MusicInfuser 是一个将文本到视频扩散模型与音乐对齐的项目，能够根据音乐和文本生成舞蹈视频。它通过引入音乐-视频交叉注意力机制，使生成的视频能够与音乐节奏同步。 MusicInfuser：一个可以根据音乐和文本生成舞蹈视频的模型.jpg

MusicInfuser功能

音乐驱动的舞蹈视频生成：根据输入的音乐和文本提示生成高质量的舞蹈视频。

灵活的文本提示：用户可以通过文本提示指定舞蹈风格、场景、舞者特征等。

支持长序列生成：虽然模型最初是基于 73 帧序列训练的，但可以外推生成更长的视频序列。

随机种子控制：通过设置随机种子，用户可以生成不同的舞蹈结果。

MusicInfuser应用

创意视频制作：为视频创作者提供音乐驱动的舞蹈视频生成工具，提升内容创作效率。

娱乐与表演：用于生成个性化的舞蹈表演视频，适用于虚拟现实、增强现实等场景。

教育与培训：帮助舞蹈学习者通过生成的视频更好地理解舞蹈动作与音乐节奏的配合。

MusicInfuser使用方法

一、安装

1. 克隆仓库：

gitclonehttps://github.com/SusungHong/MusicInfusercdMusicInfuser

2. 创建并激活 Conda 环境：

condacreate-nmusicinfuserpython=3.10condaactivatemusicinfuser

3. 安装依赖：

pipinstall-rrequirements.txtpipinstall-e./mochi--no-build-isolation

4. 下载模型权重：

python./music_infuser/download_weights.pyweights/

二、推理（生成视频）

运行以下命令生成视频：

pythoninference.py--input-file{MP3或MP4文件路径}--prompt{文本提示}--num-frames{生成的帧数}

input-file：输入文件（MP3 或 MP4），从中提取音频。

prompt：生成舞蹈的文本提示。提示越具体，生成结果通常越好，但过于具体可能会降低音频的影响。默认值为 "a professional female dancer dancing K-pop in an advanced dance setting in a studio with a white background, captured from a front view"。

num-frames：生成的帧数。默认值为 145。

其他可选参数：

seed：随机种子，用于控制生成结果的随机性。默认值为 None。

cfg-scale：文本提示的分类器自由引导（CFG）比例。默认值为 6.0。

三、训练

1. 数据预处理：

bashmusic_infuser/preprocess.bash-v{数据集路径}-o{处理后的视频输出目录}-w{预训练的Mochi模型路径}--num_frames{帧数}

2. 运行训练：

bashmusic_infuser/run.bash-cmusic_infuser/configs/music_infuser.yaml-n1

注意：当前实现仅支持单 GPU 训练，训练 73 帧序列需要大约 80GB 的显存。

相关链接

GitHub 项目页面：https://github.com/SusungHong/MusicInfuser

论文：https://arxiv.org/abs/2503.14505

相关推荐

最新收录

AnimateDiff电脑版下载

AnimateDi

HealthiCons安装官网

HealthiCo

HiEcho在线

HiEcho在线

Formularizer官网网页版

Formulari

FreeSubtitles精简版下载

FreeSubti

ColoromoAI官方HD版

ColoromoA

通义舞王下载并安装

通义舞王下载并安装

Motionshop国际版app下载

Motionsho

iConFont官网进入

iConFont官

PaperBrain精简版安装

PaperBrai

GPTExcel官网

GPTExcel官

BGM猫精简版永不升级

BGM猫精简版永不

Styldod精简版永不升级

Styldod精简

FlawlessAIapp官网登录

FlawlessA

星火作家大神安装官网

星火作家大神安装官

AgentTARS2025正版下载

AgentTARS

SvgLogo精简版下载

SvgLogo精简

MagicSchoolAIapp苹果iOS下载

MagicScho

最新文章

当代情感密码解密：为什么只想和你睡成为年轻人新暗号

当代情感密码解密：

Multi-Agent Orchestrator-亚马逊开源的多智能体框架

Multi-Age

Meta推LlamaRL强化学习框架：全异步分布设计，训练AI模型提速10.7倍

Meta推Llam

人妻出轨按摩师事件频发：行业潜规则与婚姻保卫战

人妻出轨按摩师事件

Motia-AI Agent 开发框架，支持多种编程语言、一键部署智能体

Motia-AI

OpenAI开源模型发布推迟至夏末，CEO奥尔特曼称“非常值得等待”

OpenAI开源模

车上他弄得我好爽高潮动？这份车震安全指南你必须收藏！

车上他弄得我好爽高

RuoYi AI-全栈式 AI 开发平台，快速搭建个性化 AI 应用

RuoYi AI-

法国AI实验室Mistral推出推理模型Magistral系列，Small版已开源

法国AI实验室Mi

MoshiVis-Kyutai 开源的多模态实时语音模型

MoshiVis-

51吃瓜老虎菜98年幼师出生日期引热议网友考古发现关键线索

51吃瓜老虎菜98

DeepMesh-清华和南洋理工推出的 3D 网格生成框架

DeepMesh-

Reve Image-Reve 推出的全新 AI 图像生成模型

Reve Imag

欧美GV男星江湖：从肌肉硬汉到破圈顶流，你不知道的行业秘辛

欧美GV男星江湖：

StarVector-开源多模态视觉语言模型，支持图像和文本到 SVG 生成

StarVecto

瀚海智语-海洋垂直领域大模型，基于360 智脑和 DeepSeek 研发

瀚海智语-海洋垂直

sesese97到底怎么搜？教你正确打开这个神秘代码的N种姿势

sesese97到

AndroidGen-智谱推出增强大语言模型 Agent 能力的框架

AndroidGe