SpatialGen-群核科技开源的3D场景生成模型

文章来源：智汇AI 发布时间：2025-08-26

SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构，支持根据文字描述、参考图像和 3D 空间布局，生成时空一致的多视角图像，且能进

暂无访问

SpatialGen是什么

SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构，支持根据文字描述、参考图像和 3D 空间布局，生成时空一致的多视角图像，且能进一步得到 3D 高斯场景并渲染漫游视频。模型依托海量室内 3D 场景数据，生成的图像视觉真实，物体在不同镜头下空间属性和物理关系准确，能让用户自由穿梭场景，沉浸体验。SpatialGen解决了现有视频生成模型空间一致性问题，为 AI 视频创作等提供强大工具。

SpatialGen的主要功能

多视角图像生成：根据文字描述、参考图像和3D空间布局，生成具有时空一致性的多视角图像，确保同一物体在不同视角下保持准确的空间属性和物理关系。3D高斯场景生成：进一步将生成的多视角图像转化为3D高斯场景，支持渲染漫游视频，为用户提供沉浸式的3D空间体验。时空一致性保障：在生成的视频中，物体的形状和空间关系在多帧画面中保持稳定和连贯，解决现有视频生成模型中常见的空间一致性问题。参数化布局可控生成：支持基于参数化布局的可控生成，未来能实现更丰富的结构化场景信息控制，满足不同用户对场景生成的具体需求。

SpatialGen的技术原理

多视角扩散模型：SpatialGen基于扩散模型架构，通过在3D空间中采样多个相机视角，将3D布局转化为对应视角的2D语义图和深度图，结合文字描述和参考图像，基于扩散模型生成每个视角对应的RGB图像，及语义图和深度图。大规模高质量数据集：依托群核科技海量的室内3D场景数据，数据为模型训练提供丰富的素材，使生成的图像在视觉上更加真实，物体的空间关系更加准确。3D重建算法：通过重建算法将生成的多视角图像转化为3D高斯场景，实现从2D图像到3D场景的转换，为用户提供更加丰富的交互体验。时空一致性技术：通过特定的算法和技术，确保生成的多视角图像在时间和空间上的一致性，避免物体在不同帧之间出现位置偏移、空间逻辑混乱等问题，提高视频生成的质量和可用性。

SpatialGen的项目地址

GitHub仓库：https://github.com/manycore-research/SpatialGenHuggingFace模型库：https://huggingface.co/manycore-research/SpatialGen-1.0

SpatialGen的应用场景

室内设计与装修：根据用户输入的描述或户型图生成多种室内设计方案，帮助设计师快速呈现效果并优化方案，提升设计效率。虚拟现实（VR）和增强现实（AR）：为 VR 和 AR 应用生成逼真的 3D 场景，提供沉浸式体验，如虚拟展览馆、旅游景点等，增强用户交互感。游戏开发：快速生成游戏中的 3D 场景和环境，如室内场景、城市街道等，加速游戏开发流程，降低开发成本，丰富游戏场景。机器人训练与仿真：生成家庭、工业车间等 3D 场景用于机器人训练，提供丰富的训练数据，提高机器人适应性和性能。影视制作与动画：SpatialGen 能生成高质量 3D 场景和动画，如未来城市、古代建筑等，用在影视制作和动画背景，提高制作效率，提供逼真视觉效果。