谷歌 DeepMind Genie 3 问世，几秒生成 3D 场景，AI 造世界成真？-人工智能-PHP中文网

谷歌 DeepMind Genie 3 问世，几秒生成 3D 场景，AI 造世界成真？

絕刀狂花

发布： 2025-09-19 15:15:01

原创

924人浏览过

曾经，生成式 ai 的突破让我们得以与算法“对话”，实现写文章、画插画、剪视频等任务。如今，deepmind 推出的 genie 3，将生成式 ai 推向了全新的维度。

近日，DeepMind 官网发布了被誉为“通用世界模型”的 Genie 3。只需输入一句指令，例如：“在一个暴风雨中的中世纪村庄漫步”，短短几秒内，Genie 3 就能生成一个可探索、可实时交互的 3D 虚拟空间。在这个潮湿阴暗的村庄里，石板路映照着闪电的光芒，用户可以自由控制视角穿行其中。推开一间小屋的门，能看到炉火在墙上映出跳动的光影；走出再返回，屋内的陈设依旧如初。若再追加一句：“雨过天晴，一名骑士骑马出现在屋外”，几秒钟后，那名骑士便会策马而来，踏起泥泞水花。

这一刻，用户仿佛成了世界的创造者——这正是 Genie 3 作为“通用世界模型”所展现的强大能力，也让谷歌在激烈的 AI 竞赛中重新占据一席之地。

Genie 3 的前身是 2024 年底发布的 Genie 2。尽管当时已能生成基础的 3D 场景，但画面仅能维持 10 到 20 秒，细节粗糙且不稳定：视角一转，树木可能漂浮空中，角色突然消失，物体位置随机偏移。

然而，仅仅七个月后，Genie 3 实现了飞跃式进步。分辨率从 360p 提升至 720p，输出帧率达到 24 帧每秒，并能持续模拟数分钟之久，不再是十几秒的短暂动画片段。更重要的是，Genie 3 通过模型自身的预测机制来维持场景的逻辑与物理一致性，而非依赖传统游戏引擎中的硬编码规则。比如，树叶随风自然摆动，角色阴影根据光源动态变化，物体碰撞后产生符合现实规律的反馈。

过去，Sora 等文本到视频模型以及早期 Genie 版本始终难以解决“世界一致性”问题。而 Genie 3 引入了一种新的视觉记忆机制，使每一帧都参考前一帧的状态，持续维护环境结构。这意味着你走过的路径不会凭空消失，树木、岩石和建筑都能稳定存在，整个世界如同拥有“记忆”，呈现出连续、连贯、可持续几分钟的真实感。

DeepMind 认为，这类“世界模型”是通往通用智能的关键基石——真正的智能必须能在稳定、逻辑一致的环境中进行决策和行动。因此他们强调这是“世界模型”，而非简单的“视频生成器”。像 Sora 这样的传统模型，只能将文本转化为一段固定的 30 秒视频，无法更改或互动；而 Genie 3 在交互性上实现了质的突破：它生成的是一个连续演化的虚拟世界，在用户探索过程中动态调整内容并保持因果连贯，真正做到了“文字即指令，世界即时响应”。

举例来说，当你输入“水面出现一辆摩托艇”，Genie 3 不会重新渲染整幅画面，而是让摩托艇自然驶入河道，激起逼真的浪花和涟漪。这种即时可塑性让用户不再只是观众，而是导演、建筑师甚至神明般的存在。

据悉，Genie 3 在训练过程中使用了大量由游戏引擎生成的数据及视频预测任务，使其具备初步的“因果感知”和“持久性理解”——它知道世界是延续的，行为会产生后果。此外，Genie 3 支持自由视角移动，并能根据不同角度动态重绘画面内容，这对模型的 3D 空间推理能力提出了极高要求。其终极目标是实现“基于世界的交互式生成”，创造出可探索、可编辑的沉浸式虚拟现实，应用场景极为广泛。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Genie 3 生成的交互式 3D 场景示意图

Genie 3 在创意产业中的潜力不可估量。

在游戏开发领域，传统 3D 场景构建成本高昂、周期漫长，许多独立开发者不得不退而求其次，采用 2D 或像素风格。但 Genie 3 打破了这一瓶颈——只需几句描述，即可快速搭建出动态且可交互的场景。对于资源有限的小团队而言，Genie 3 极大地填补了“成本鸿沟”，让他们可以用文本像搭积木一样拼接开放世界地图。

Text Mark

处理文本内容的AI助手

查看详情

在影视制作中，导演与美术指导可在拍摄前实时预览场景，调整光照、添加角色、安排走位，实现“沉浸式分镜设计”。演员也能提前在虚拟空间中排练，提升效率。

在教育领域，历史课本中的古罗马广场、地理教材里的火山喷发过程，都可以被 Genie 3 转化为学生可进入、可互动的学习空间，极大增强学习体验。

艺术创作也迎来新纪元——人们可以“走进”《魔戒》中的摩瑞亚矿坑，或“步入”拉斐尔笔下的《雅典学院》。当每个人都能轻松构建属于自己的虚拟空间时，“元宇宙”的愿景或许不再遥远。

更深远的是，DeepMind 对 Genie 3 的期待不止于内容生成。他们希望将其用作物理智能体（Physical Agent）的训练平台。世界模型能为 AI 智能体提供一个“认知沙盒”，让它们在高度仿真的虚拟环境中学习因果关系、空间感知与行动规划，避免在真实世界中试错带来的高成本与风险。

例如，在训练仓储机器人时，以往需要搭建昂贵的物理测试场，或依赖传统游戏引擎模拟，但后者缺乏多样性与真实性。而在 Genie 3 构建的世界中，场景无限生成、随时修改、逻辑自洽，机器人可以在其中练习避障、搬运、协作，甚至模拟极端情况——比如自动驾驶车辆面对行人突然冲出马路的应急反应。

利用 Genie 3 模拟机器人训练场景

当然，Genie 3 并非完美无缺。

目前其输出分辨率为 720p，帧率 24fps，距离 4K 高刷新率的游戏标准仍有差距；
场景的持久性仍有限，大多数演示控制在 1 分钟以内；
文字渲染能力较弱，路牌上的字体模糊不清；
物理一致性尚未完全成熟，在涉及大量生物、雪崩模拟等复杂场景中会出现“AI 异常”现象；
此外，Genie 3 目前仅限于研究用途和合作项目，尚未开放公共 API，也无法在线体验。

但从宏观角度看，Genie 3 标志着 AI 技术演进的重要转折点。从 World Labs、Cosmos 这类世界基础模型，到 Genie 3 的发布，我们正见证 AI 空间智能技术从 2D 向 3D 演进，从静态画面走向可探索空间，从碎片化场景迈向时空连贯、因果明确的虚拟世界。

如果说 ChatGPT 让语言成为操作系统的入口，Sora 让视频成为创作的新界面，那么 Genie 3 正在把文字变成“可操作的空间”。未来，在游戏、影视、教育、科研等领域，构建虚拟世界或将变得如同打字一般简单，真正实现“一句话，一个世界”。

以上就是谷歌 DeepMind Genie 3 问世，几秒生成 3D 场景，AI 造世界成真？的详细内容，更多请关注php中文网其它相关文章！