零代码,一张图生成大世界Demo,国产开源世界模型这么猛?

昨天 14:56综合
TapTap
像玩FPS一样生成游戏场景。
文/青晖
过去一年,3A市场寒气逼人,育碧、索尼、微软等巨头接连裁撤工作室、取消在研3A项目。
这背后主要原因,是3A游戏开发成本的失控,ROI不成正比。厂商们开始寻找降本增效的办法,有些厂商选择的裁人裁项目,有些厂商则把希望寄托于AI。
去年下半年,Genie 3的突破,让「世界模型」成了不少游戏厂商关注的焦点,其「靠提示词生成互动场景」的能力,可能会让3A游戏节省大量资产制作成本。
随后,世界模型这股技术风也吹向了国内,腾讯、昆仑万维等厂商纷纷布局。今天上午,蚂蚁灵波科技也公布了新的世界模型——LingBot-World,葡萄君仔细阅读了一下技术文档,隐隐感觉,距离世界模型改变游戏开发路径的那一天不远了。
01
世界模型,新游戏引擎?
葡萄君先介绍一下啥是世界模型,简单来说,就是用一段提示词,生成一个可以互动的虚拟场景的视觉大模型。
以LingBot-World世界模型为例,在生成场景界面,用户可以按「上下左右」键,直接或操控一个主体(人物、猫、车等)来探索这个场景,场景会根据你移动的方向,自动生成新元素来扩充画面。
TapTap
而且这个场景不是预加载的,而是实时生成的。根据LingBot-World介绍,该模型在交互场景下,能做到16fps(每秒显示 16 帧画面)的生成速度,移动延迟小于1秒。
也就是说,用户可以像玩FPS或第一人称RPG一样,操控视角到处走,边走边生成一个完整的场景。
TapTap
听上去是不是跟AI生成视频差不多?其实完全不一样,因为这个开放世界的逻辑是连贯、一致的。
以前视频模型生成场景往往缺乏底层规律,没有因果关系、物体会胡乱变化,例如:很多AI视频里,画面一转换,箱子突然就变成了椅子;人物把杯子放桌上,镜头切走再切回来,杯子莫名其妙换了一个位置等。
而这些问题,在世界模型中都被解决了。
LingBot-World在技术文档中展示了不少场景,可以很好展示世界模型中画面元素的一致性:
TapTap
比如在上面这一组三个场景中,静态地标(雕塑、巨石等),即使离开画面后60秒,仍然保持在原位置,没有发生任何改变。
此外,这款世界模型还能对视野外的未观测区域进行动态推理,比如两组汽车行驶的场景:
TapTap
第一组场景中,当相机向右转动,跟随面包车跑了一段后,再回到正面视角时,远处的桥梁被渲染得明显更近了。
第二组场景中,即便汽车移出视野,也会在模型的模拟下继续沿道路行驶,并在合理的位置重新出现,而非消失或静止不动。
这些行为表明,作为世界模型,LingBot-World模拟的是现实世界的时空,而非纯像素记忆。
世界模型这些能力,以前更多会运用在具身智能之类的场景,帮助机器人在「脑子」里预演现实世界的动作。
但从能力特性来看,它也非常契合游戏开发。像前文提到的场景生成功能,形式和在游戏引擎中搭建游戏场景的逻辑高度相近——建立一个符合规则的物理场景,已经放置好的东西不会消失。
TapTap
值得一提的是,目前不少模型虽能生成这样的互动场景,却仅能实现 5~10 秒的生成时长,这对于游戏开发而言几乎不具备实际应用价值。
LingBot-World在技术报告中称,该模型可以做到分钟级的无损生成,这个时长,生成一个游戏小Demo没什么问题,尽管该技术还处于起步阶段,但起码算是可用了。
02
AI生成开放世界,
开发成本爆降?
有了LingBot-World这样的世界模型能力,未来的游戏开发,会有哪些变化?
我们不妨大胆来假设一下。
首先有了世界模型,游戏开发者可以无需编写代码,即可制作核心玩法,从而降低早期 Demo 的试错成本。
举个例子,开发者要做一款开放世界游戏,想实现一个类似塞尔达「究极手」新能力的场景传统做法需要开发去做吸附/旋转/连接的规则、物理约束、UI交互,再做素材和水体反馈等等,验证时间成本非常高。
而在世界模型中,只需让策划、美术把一张概念图或实拍照片丢给LingBot-World,描述相关功能需求,它就可以按照原图生成整个场景,并实现相应的物理规则。觉得Demo不符合预期也没关系,重新做也费不了多长时间。
其次,游戏厂商也可以利用世界模型来做自动化测试、训练智能NPC等。
根据LingBot-World的技术文档介绍,对于需要复杂物理交互的游戏来说, 该模型能提供符合物理规律的高动态环境,可以帮助厂商进行大规模自动化测试、检测物理碰撞和逻辑漏洞。比如实时生成不同的虚拟游戏环境,在环境中训练高智能NPC和测试自动化Agent等。
TapTap
还有,世界模型也为游戏带来了更广阔的玩法畅想,比如让「无限且逻辑自洽的开放世界」游戏成为可能。
LingBot-World的场景创建思路很符合「无限开放世界」的想法,该模型给场景变化预设了几种不同的方式。
比如,仅通过提示词,就能给同一场景更换不同的状态。在下面这个骑龙向城堡飞行的场景中,可以通过提示词,添加烟花、闪电、护盾等特效,也可以改变天气、季节。
这些变化都是在完全不改变原场景动作的基础上达成的。
TapTap
再比如,用一张初始图像,不给更多提示词,LingBot-World也可以自己模拟去探索环境,生成一个完整的世界。
TapTap
除了上面这两个全局的变换思路,LingBot-World还能根据提示词,向场景中局部位置加入特定的物体,比如让模型「在喷泉里生成几只鱼」。局部添加的物体也可以和玩家直接互动,比如「走到城堡附近就触发烟花」等。
TapTap
有了这些能力,未来,游戏可能不再完全依赖美术手工堆砌资产,游戏环境/关卡都可以根据玩家行为实时生成,也可以根据运营需求随时变更,想换城堡,就换城堡,想换BOSS,就换BOSS,都是几句话的事。
TapTap
这些场景设想和模型能力,都为游戏研发管线提供了新思路。
更重要的是,它还有可能会从根源上解决3A游戏困境中的成本问题。
据葡萄君了解,此前,在3A游戏开发中,美术相关资产(如角色场景建模//动画特效/UI/过场等)可达项目总成本30%~40%,如果是开放世界游戏,这个比例还会更高。这其中还有很多是试错成本,比如美术、玩法交互不符合需要,就得推倒重来。
TapTap
图源JuegoStudio
而世界模型的核心能力之一,就是生产上述资产,抛开算力金钱成本不谈,光是时间成本带来的增效收益,就能让3A厂商们大喘一口气。
03
对标Genie 3 ,但开源
去年 Genie 3 发布,确实给行业带来了不小的震撼,直到今天,它依然代表着世界模型领域的最高技术水准,也让很多游戏厂商看见了降本的希望。
但遗憾的是,Genie 3 是一款闭源模型,社区和开发者无法基于它持续开发、深度迭代;而且它目前主要用于研究与合作项目,尚未面向公众开放 API,我们能接触到的基本只有 Demo,也很难真正评估它的可用性与边界。
相比之下,开源的LingBot-World目前已经可以部署尝试了。
LingBot-World在性能上也明确在对标 Genie 3——从官方公开的对比测试来看,多项指标与 Genie 3 基本持平,部分场景甚至更强(例如高动态环境),此外,现阶段 Genie 3 对外展示的 Demo 多在 1 分钟左右,更长时间的生成能力还无法验证,而 LingBot-World 已经能够生成可体验的 10 分钟互动视频内容。
TapTap
性能上对标 Genie 3,且开源、可用,也就意味着,LingBot-World已经可以让更多游戏团队,立马拥有一个 SOTA 级别的世界模型底座,让节省成本做3A这件事,更具备了可能性。
TapTap