游戏葡萄

零代码，一张图生成大世界Demo，国产开源世界模型这么猛？

昨天 14:56综合

像玩FPS一样生成游戏场景。

文/青晖

过去一年，3A市场寒气逼人，育碧、索尼、微软等巨头接连裁撤工作室、取消在研3A项目。

这背后主要原因，是3A游戏开发成本的失控，ROI不成正比。厂商们开始寻找降本增效的办法，有些厂商选择的裁人裁项目，有些厂商则把希望寄托于AI。

去年下半年，Genie 3的突破，让「世界模型」成了不少游戏厂商关注的焦点，其「靠提示词生成互动场景」的能力，可能会让3A游戏节省大量资产制作成本。

随后，世界模型这股技术风也吹向了国内，腾讯、昆仑万维等厂商纷纷布局。今天上午，蚂蚁灵波科技也公布了新的世界模型——LingBot-World，葡萄君仔细阅读了一下技术文档，隐隐感觉，距离世界模型改变游戏开发路径的那一天不远了。

世界模型，新游戏引擎？

葡萄君先介绍一下啥是世界模型，简单来说，就是用一段提示词，生成一个可以互动的虚拟场景的视觉大模型。

以LingBot-World世界模型为例，在生成场景界面，用户可以按「上下左右」键，直接或操控一个主体（人物、猫、车等）来探索这个场景，场景会根据你移动的方向，自动生成新元素来扩充画面。

而且这个场景不是预加载的，而是实时生成的。根据LingBot-World介绍，该模型在交互场景下，能做到16fps（每秒显示 16 帧画面）的生成速度，移动延迟小于1秒。

也就是说，用户可以像玩FPS或第一人称RPG一样，操控视角到处走，边走边生成一个完整的场景。

听上去是不是跟AI生成视频差不多？其实完全不一样，因为这个开放世界的逻辑是连贯、一致的。

以前视频模型生成场景往往缺乏底层规律，没有因果关系、物体会胡乱变化，例如：很多AI视频里，画面一转换，箱子突然就变成了椅子；人物把杯子放桌上，镜头切走再切回来，杯子莫名其妙换了一个位置等。

而这些问题，在世界模型中都被解决了。

LingBot-World在技术文档中展示了不少场景，可以很好展示世界模型中画面元素的一致性：

比如在上面这一组三个场景中，静态地标（雕塑、巨石等），即使离开画面后60秒，仍然保持在原位置，没有发生任何改变。

此外，这款世界模型还能对视野外的未观测区域进行动态推理，比如两组汽车行驶的场景：

第一组场景中，当相机向右转动，跟随面包车跑了一段后，再回到正面视角时，远处的桥梁被渲染得明显更近了。

第二组场景中，即便汽车移出视野，也会在模型的模拟下继续沿道路行驶，并在合理的位置重新出现，而非消失或静止不动。

这些行为表明，作为世界模型，LingBot-World模拟的是现实世界的时空，而非纯像素记忆。

世界模型这些能力，以前更多会运用在具身智能之类的场景，帮助机器人在「脑子」里预演现实世界的动作。

但从能力特性来看，它也非常契合游戏开发。像前文提到的场景生成功能，形式和在游戏引擎中搭建游戏场景的逻辑高度相近——建立一个符合规则的物理场景，已经放置好的东西不会消失。

值得一提的是，目前不少模型虽能生成这样的互动场景，却仅能实现 5~10 秒的生成时长，这对于游戏开发而言几乎不具备实际应用价值。

LingBot-World在技术报告中称，该模型可以做到分钟级的无损生成，这个时长，生成一个游戏小Demo没什么问题，尽管该技术还处于起步阶段，但起码算是可用了。

AI生成开放世界，

开发成本爆降？

有了LingBot-World这样的世界模型能力，未来的游戏开发，会有哪些变化？

我们不妨大胆来假设一下。

首先有了世界模型，游戏开发者可以无需编写代码，即可制作核心玩法，从而降低早期 Demo 的试错成本。

举个例子，开发者要做一款开放世界游戏，想实现一个类似塞尔达「究极手」新能力的场景。传统做法需要开发去做吸附/旋转/连接的规则、物理约束、UI交互，再做素材和水体反馈等等，验证时间成本非常高。

而在世界模型中，只需让策划、美术把一张概念图或实拍照片丢给LingBot-World，描述相关功能需求，它就可以按照原图生成整个场景，并实现相应的物理规则。觉得Demo不符合预期也没关系，重新做也费不了多长时间。

其次，游戏厂商也可以利用世界模型来做自动化测试、训练智能NPC等。

根据LingBot-World的技术文档介绍，对于需要复杂物理交互的游戏来说，该模型能提供符合物理规律的高动态环境，可以帮助厂商进行大规模自动化测试、检测物理碰撞和逻辑漏洞。比如实时生成不同的虚拟游戏环境，在环境中训练高智能NPC和测试自动化Agent等。

还有，世界模型也为游戏带来了更广阔的玩法畅想，比如让「无限且逻辑自洽的开放世界」游戏成为可能。

LingBot-World的场景创建思路很符合「无限开放世界」的想法，该模型给场景变化预设了几种不同的方式。

比如，仅通过提示词，就能给同一场景更换不同的状态。在下面这个骑龙向城堡飞行的场景中，可以通过提示词，添加烟花、闪电、护盾等特效，也可以改变天气、季节。

这些变化都是在完全不改变原场景动作的基础上达成的。

再比如，用一张初始图像，不给更多提示词，LingBot-World也可以自己模拟去探索环境，生成一个完整的世界。

除了上面这两个全局的变换思路，LingBot-World还能根据提示词，向场景中局部位置加入特定的物体，比如让模型「在喷泉里生成几只鱼」。局部添加的物体也可以和玩家直接互动，比如「走到城堡附近就触发烟花」等。

有了这些能力，未来，游戏可能不再完全依赖美术手工堆砌资产，游戏环境/关卡都可以根据玩家行为实时生成，也可以根据运营需求随时变更，想换城堡，就换城堡，想换BOSS，就换BOSS，都是几句话的事。

这些场景设想和模型能力，都为游戏研发管线提供了新思路。

更重要的是，它还有可能会从根源上解决3A游戏困境中的成本问题。

据葡萄君了解，此前，在3A游戏开发中，美术相关资产（如角色场景建模//动画特效/UI/过场等）可达项目总成本30%~40%，如果是开放世界游戏，这个比例还会更高。这其中还有很多是试错成本，比如美术、玩法交互不符合需要，就得推倒重来。

图源JuegoStudio

而世界模型的核心能力之一，就是生产上述资产，抛开算力金钱成本不谈，光是时间成本带来的增效收益，就能让3A厂商们大喘一口气。

对标Genie 3 ，但开源

去年 Genie 3 发布，确实给行业带来了不小的震撼，直到今天，它依然代表着世界模型领域的最高技术水准，也让很多游戏厂商看见了降本的希望。

但遗憾的是，Genie 3 是一款闭源模型，社区和开发者无法基于它持续开发、深度迭代；而且它目前主要用于研究与合作项目，尚未面向公众开放 API，我们能接触到的基本只有 Demo，也很难真正评估它的可用性与边界。

相比之下，开源的LingBot-World目前已经可以部署尝试了。

LingBot-World在性能上也明确在对标 Genie 3——从官方公开的对比测试来看，多项指标与 Genie 3 基本持平，部分场景甚至更强（例如高动态环境），此外，现阶段 Genie 3 对外展示的 Demo 多在 1 分钟左右，更长时间的生成能力还无法验证，而 LingBot-World 已经能够生成可体验的 10 分钟互动视频内容。

性能上对标 Genie 3，且开源、可用，也就意味着，LingBot-World已经可以让更多游戏团队，立马拥有一个 SOTA 级别的世界模型底座，让节省成本做3A这件事，更具备了可能性。