SpatialGen-群核科技开源的3D场景生成模型

SpatialGen-群核科技开源的3D场景生成模型

文章来源:智汇AI    发布时间:2025-08-26

SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局,生成时空一致的多视角图像,且能进

暂无访问

SpatialGen是什么

SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局,生成时空一致的多视角图像,且能进一步得到 3D 高斯场景并渲染漫游视频。模型依托海量室内 3D 场景数据,生成的图像视觉真实,物体在不同镜头下空间属性和物理关系准确,能让用户自由穿梭场景,沉浸体验。SpatialGen解决了现有视频生成模型空间一致性问题,为 AI 视频创作等提供强大工具。

SpatialGen

SpatialGen的主要功能

多视角图像生成:根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像,确保同一物体在不同视角下保持准确的空间属性和物理关系。3D高斯场景生成:进一步将生成的多视角图像转化为3D高斯场景,支持渲染漫游视频,为用户提供沉浸式的3D空间体验。时空一致性保障:在生成的视频中,物体的形状和空间关系在多帧画面中保持稳定和连贯,解决现有视频生成模型中常见的空间一致性问题。参数化布局可控生成:支持基于参数化布局的可控生成,未来能实现更丰富的结构化场景信息控制,满足不同用户对场景生成的具体需求。

SpatialGen的技术原理

多视角扩散模型:SpatialGen基于扩散模型架构,通过在3D空间中采样多个相机视角,将3D布局转化为对应视角的2D语义图和深度图,结合文字描述和参考图像,基于扩散模型生成每个视角对应的RGB图像,及语义图和深度图。大规模高质量数据集:依托群核科技海量的室内3D场景数据,数据为模型训练提供丰富的素材,使生成的图像在视觉上更加真实,物体的空间关系更加准确。3D重建算法:通过重建算法将生成的多视角图像转化为3D高斯场景,实现从2D图像到3D场景的转换,为用户提供更加丰富的交互体验。时空一致性技术:通过特定的算法和技术,确保生成的多视角图像在时间和空间上的一致性,避免物体在不同帧之间出现位置偏移、空间逻辑混乱等问题,提高视频生成的质量和可用性。

SpatialGen的项目地址

GitHub仓库:https://github.com/manycore-research/SpatialGenHuggingFace模型库:https://huggingface.co/manycore-research/SpatialGen-1.0

SpatialGen的应用场景

室内设计与装修:根据用户输入的描述或户型图生成多种室内设计方案,帮助设计师快速呈现效果并优化方案,提升设计效率。虚拟现实(VR)和增强现实(AR):为 VR 和 AR 应用生成逼真的 3D 场景,提供沉浸式体验,如虚拟展览馆、旅游景点等,增强用户交互感。游戏开发:快速生成游戏中的 3D 场景和环境,如室内场景、城市街道等,加速游戏开发流程,降低开发成本,丰富游戏场景。机器人训练与仿真:生成家庭、工业车间等 3D 场景用于机器人训练,提供丰富的训练数据,提高机器人适应性和性能。影视制作与动画:SpatialGen 能生成高质量 3D 场景和动画,如未来城市、古代建筑等,用在影视制作和动画背景,提高制作效率,提供逼真视觉效果。

相关推荐