OmniAudio-阿里通义推出的空间音频生成模型

OmniAudio-阿里通义推出的空间音频生成模型

文章来源：智汇AI 发布时间：2358-06-09

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据

暂无访问

OmniAudio是什么

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段：自监督的coarse-to-fine流匹配预训练，基于大规模非空间音频资源进行自监督学习；以及基于双分支视频表示的有监督微调，强化模型对声源方向的表征能力。

OmniAudio

OmniAudio的主要功能

生成空间音频：能直接从360°视频生成FOA音频，这种音频是一种标准的3D空间音频格式，能捕捉声音的方向性，实现真实的3D音频再现。采用四个通道（W、X、Y、Z）来表示声音，其中W通道负责捕捉整体声压，X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。在头部旋转时，可以确保声音定位的准确性得以保持。

相关推荐

最新收录

flowgpt AI

flowgpt A

publicprompts

publicpro

花瓣ai圈

花瓣ai圈

promptvine

promptvin

ChatGPT Prompt Genius

ChatGPT P

Prompt Hunt

Prompt Hu

LIB.KALOS.ART

LIB.KALOS

CLIP Interrogator

CLIP Inte

Promptalot

Promptalo

deepseek提示词

deepseek提

图可丽

图可丽

Reclaim.ai

Reclaim.a

Rezi.ai

Rezi.ai

OS-AIGC

OS-AIGC

kickresume

kickresum

iQuit.ai

iQuit.ai

iA Presenter

iA Presen

Summarizer

Summarize

最新文章

OmniAudio-阿里通义推出的空间音频生成模型

OmniAudio

你的头像有多久没换了？Midjourney生成不同风格的AI头像教程

你的头像有多久没换

视频生成平台Runway举办年度AI电影节，6000部参赛作品决出十强

视频生成平台Run

OpenAudio S1-Fish Audio推出的新一代语音生成模型

OpenAudio

成人做爰A片免费看视美女图片：网络内容消费的双刃剑

成人做爰A片免费看

MoonCast-零样本AI播客生成系统，合成自然的播客风格

MoonCast-

【教程】MidJourney快速生成线稿图，辅助线稿创作，告别手绘烦恼！

【教程】MidJo

Gemini Fullstack LangGraph Quickstart-谷歌DeepMind开源的全栈AI研究助手

Gemini Fu

为什么这么多人想用「快手成人版无限观看」？真实用户需求全拆解

为什么这么多人想用

让回忆动起来！AI修复老照片+开口说话教程，复活亲友不再是梦！

让回忆动起来！AI

DecipherIt-AI研究助手，支持多源研究整合和分析

DecipherI

Qwen3 Embedding-阿里通义开源的文本嵌入模型系列

Qwen3 Emb

Qwen3 Reranker-阿里通义开源的文本重排序模型

Qwen3 Rer

ChatTTS克隆声音不像原声？相似度90%以上的AI配音教学来了

ChatTTS克隆

Eleven v3-ElevenLabs推出的AI文本转语音模型

Eleven v3

成版人奶茶视频app有容成人版：当内容生态遇上精准需求

成版人奶茶视频ap

MiniCPM 4.0-面壁智能开源极致高效的端侧大模型

MiniCPM 4

Ai让照片说话教学！EchoMimic图片转视频

Ai让照片说话教学