游戏葡萄

官方版主

游戏葡萄

官方版主

前腾讯总经理创业，产品大神王诗沐：AI不会让游戏人下岗

修改于昨天 23:491 浏览综合

“人活一辈子，干自己喜欢的事不好吗？”

文/王丹

蛰伏多年，王诗沐最近出山了。

相信不少互联网从业者，尤其是产品经理，都听说过他的大厂故事：王诗沐于2010年加入网易，曾任网易云音乐高管；2019年，他加入腾讯，曾任腾讯总经理GM L3-3，先后参与过小鹅拼拼、腾讯新闻、幻核等业务。

但2022年离开腾讯后，王诗沐没再进大厂，而是创业成立Seele，专注于3D游戏生成AI大模型。

图源知乎

自创业以来，王诗沐鲜少露面。直到今年4月百度智能云论坛，王诗沐才终于来到台前：“2022年出来（创业）之后，外界基本上很少知道我们公司以及我的消息……这是我们第一次对外分享我们的技术模型。”

6月初，他们还在上海举办了发布会，对外官宣了原生3D多模态基础模型Seele 3DLMM，并预告了公司在研的世界模型PEGA（Physics Embedded Generative Architecture，物理嵌入式生成架构）。

这像是一个激进的信号：Seele多年的低调已经结束，接下来他们会放开手脚开拓市场。

但问题来了：目前市面上AI游戏生成工具这么多，Seele不一样在哪？

抱着这个疑问，葡萄君最近和王诗沐聊了聊。他告诉我，不管是在多模态游戏大模型领域，还是世界模型领域，他都很确认Seele处于领先地位。

不过，他们的最终目标不是为游戏研发降本增效，是改变游戏从业者的心智，而这个过程会颠覆现有的生产链和职能架构——在他的预想中，未来，游戏行业不会只有策划、美术、程序、发行这样的传统岗位，游戏人也不必非要进厂商当齿轮、螺丝钉。

听到这儿我慌了：所以AI真的会让大批游戏人下岗？王诗沐却坚定地告诉我不会，他相信生产力变革会产生新型岗位，也相信AI在解放生产力的同时，能够进一步放大人的价值，解放人的双手：

“游戏会百花齐放，厉害的开发者依旧会很厉害。”

“让人成为真正的创造者，

而不是齿轮、螺丝钉”

葡萄君：2022年你选择离职创业，当时是怎么考虑的？

王诗沐：一方面，我觉得人活一辈子，要干自己喜欢的事。

我喜欢创造，我并不是为了挣钱才创业。从上学到现在，我做任何一个工作，脑子里都在琢磨：我能创造什么东西？

大三时，因为喜欢软件，我做了自己的个人网站，也接单帮别人做过网站。这些实践经历让我校招进了支付宝。

而我在支付宝做前端时，和其他同事习惯也不一样。大家可能做完一个需求就接下一个，而我经常会找产品经理Argue，说哪些设计做得有问题，说用户上手会有困难。

因为时常「吵」不过产品经理，我当时还写了很多blog，自己分析如何能给用户创造更好的体验。

自始至终，我都不喜欢去做「为完成任务而干活」的工作。哪怕我把产品做失败了，或者我没怎么赚到钱，工资没怎么涨，我都不会有特别强的挫败感。

所以我会觉得喜欢是第一原动力。

另一方面，我觉得生产力变革时期，个体不需要焦虑，只要知道自己走的大方向是对的，就够了。

葡萄君：怎么判断大方向是对是错？

王诗沐：看趋势这事，需要一定的经验，以及积累下来的方法。

如果一个人接收的信息不够多，经过的思考也不够多，那就不一定能判断趋势。

所以从工作的第一天开始，就应该尝试去看趋势。但不能很假大空地看——你今天读了100份上市公司的研报，看了100个投资案例，那不代表什么，你看的都是别人的东西，只有看过后，自己消化且付诸实践了，才算是一次完整的练习。

就像王阳明说的，要知行合一。

我之前写《幕后产品：打破突破式产品思维》，在序言里就有提到，这本书讲的是我的思考方式，但不意味着大家就应该按照我的思考方式来，我只是把我前前后后思考的脉络呈现出来，希望读者能借此意识到，思考是可以训练的。

不停训练思考，你对趋势的分析就会越来越强。

当你有机会把趋势、热爱结合起来，你就能够做很多自己想去做的事情，这一生就算是把自己活出来了。

葡萄君：所以你为什么会选择AI生成游戏这个大方向？

王诗沐：我相信几个基本的东西。

第一，我不认同说技术没有价值观，我相信它有。

一些短视频平台会给用户推荐低俗、迎合低级趣味的内容，我觉得这不好。如果没有人去做更好的科技产品，大家就会进一步被洗脑、越来越沉迷于「奶头乐」。

第二，我相信人类要有互动学习。

如果人每天完全不动脑，不进行互动和学习，那就会越来越傻，最终被淘汰掉。

第三，我相信AI生产力革命，可以极大释放每个人的创造力。

每个人在小时候都有充分的想象力，只是在后面长大的过程中，这种想象力被慢慢压制了。我相信未来AI生产力提升后，大家的想象力能被解放出来。

这也是我为什么要做游戏生成式AI——游戏是很好的切入点，它具备极强的互动性，且能承载开发者的创造力和价值观。

葡萄君：你们定义Seele是首个端到端的3D游戏大模型，这两个端分别对应什么？

王诗沐：输入端，是用户的创意，人类的奇思妙想。

至于输出端，目前Seele能输出完整、可运行的游戏作品，包括联网对战等游玩功能也可以做出来。

这不是输出端的终点。把游戏做出来只是第一步，游戏最终表现如何，还要看发行、推广、运营、变现……我们还会进一步往后推，让Seele最终覆盖游戏整个运营生命周期。

Seele社区里的用户生成作品之一。据王诗沐先前分享，他们通过后台日志查到，用户和Seele对话几个小时便做出了这款游戏。

但当下光说生成游戏，我们已经能看到一些AI涌现式的惊喜了。

葡萄君：什么样的惊喜？

王诗沐：最近有位用户用我们的Skill生成了一个FPS游戏，之后又和AI说再生成一个过山车游戏。

Seele的工作区是统一的，用户可以在工作区内生成不同游戏，且上下文记忆相通，所以Seele自己做了个决策：把FPS和过山车组合在一起，生成「玩家和敌人都在坐过山车，然后又要互相射击」的游戏。

AI不会判断这个点子是好是坏。只是东西就在那儿，上下文互通，AI就那么做了。

这事让我更加深信AI能帮到人类，而不单单是执行命令。AI的计算效率很高，它能很快计算、涌现出奇形怪状的结果，解锁很多可能性。

虽然不是每个涌现结果都一定好玩，但相较于手搓demo，这个试错成本足够低——假设用户认为「过山车射击」游戏不好玩，那也才消耗几百个token而已。

当然，现在的Seele还不够全知全能。我们最近发现有些用户反复和Seele聊同件事，但Seele很难一次性解决问题。

葡萄君：为什么？

王诗沐：部分用户不了解游戏开发，这导致他们与Seele交流时认知难以达成一致。

毕竟和图片、文本、视频生成不一样，游戏生成的链条很长，且单个环节都可能牵扯出大量信息——单说建模，就有大量数据要处理，更别说后面还有关卡设计等环节。

所以有时用户让Seele解决一个问题，Seele说解决了，但问题还在，用户会很受挫。实际上Seele并非没有尝试去解决，只是Seele很难一次性找到出问题的地方。

比如我们生成一个肉鸽游戏，发现遇到的BOSS总是同一个。这背后可能有几种情况：第一是分支树出问题；第二，分支树没问题，但状态机出了问题；第三，可能表现层出问题，BOSS的美术资产加载错了……

让AI把整个链条从头到尾都查一遍，开销过大。靠用户去引导AI找到问题，也不行，不是每个用户都有debug经验。

葡萄君：这事有解吗？

王诗沐：首先要看模型能力的提升。

此外，还有一个更方便的解法：把游戏开发高手的知识经验做成Skill。好比让老手带徒弟，老手大概率能一眼看出问题在哪，徒弟解决问题的效率就会高很多。

这样一来，用户就算没有游戏制作经验，也不影响。

葡萄君：那岂不是Skill越多越好？

王诗沐：过多Skill会增加Harness复杂度，这会约束模型本身的能力。而且模型自己内化的能力越强，就越不需要具体的、Low Level的Skill。

我们只会尽量抽象出High Level的能力做成Skill，剩下的让AI放手干。相当于要在AI的约束性、AI的涌现效果之间找到平衡。不能把AI约束成只会执行、不会涌现的工具。

我们认为，Seele生成游戏的真正约束，更多来源于人和AI的交互，我们不能在这个过程中把人的主体性或者能动性完全抹掉——一句话14个字，AI就生成一个完美游戏，那是违背人工智能的，对人也是不友好的，人在这个过程中完全没有参与感。

不只是游戏领域，视频、图片、文本生成也是一样。你想让AI写小说，但仅给AI一句话，那AI只会输出干燥乏味的笔记。生成内容要做得好，AI始终需要人的创意、知识、灵感。

葡萄君：创意依然取决于人，AI更多是降本增效的辅助工具？

王诗沐：降本增效太局限了，Seele的价值也并不是单点、单段生成素材。

像这代Seele 3DLMM，我们采用的是Mixture-of-Transformers（MoT）架构，通过共享全局自注意力，来实现跨模态信息融合。这样一来，3D与空间信息就不再只是外部工具拼接的结果，而是可以参与模型推理、编辑和生成的对象。

这意味着AI可以直接进入项目生产，在同一上下文中理解游戏工程、协同资产与工具链，跑通从创意到原型的完整流程。

归根结底，Seele最大的不同在于，它能让开发团队逐渐改变自己的心智。

因为我们想实现的是：让人成为真正的人，而不是一个齿轮、螺丝钉。

为什么很多人说自己不热爱工作？因为很多人是在「完成交给自己的任务」。

现在AI带动生产力提升，我觉得提高工作效率只是最基础的一层。更关键的是，有了AI，从业者不必再被束缚在具体的职能环节里——一个在游戏行业里码了10年代码的程序，难道一点做游戏的想法都没有吗？他应该也可以用AI生成自己想做的游戏。

葡萄君：感觉这个转变，对目前现有的游戏生产链条、职能分工来说，变动有些太大了。

王诗沐：我理解有些游戏厂商倾向于使用辅助单环节的AI工具，或是做一个AI工具集合平台。因为现有这套生产链流程是已验证、行之有效的。

你要求厂商从一个已知可盈利的模式，切换到一个全新的模式，很难。

但现有的模式，是一个由很多环节构成的长链条，这里面变量太多了，人和人沟通协作天然就有信息损失率，人一多就难管，大家只能靠大量的人工，比如项目经理等岗位，来锁死变量。

你说有没有允许全员提想法的团队？也有。像任天堂的《朋友收集：梦想生活》，就允许每个员工都提出自己的idea，但他们做了9年才做出来。

葡萄君：好歹结果不错，算好的了。

王诗沐：你也说了这算好的，那大部分公司更不可能冒着风险，让每个员工提自己的想法。

对于已经挣钱的项目来说，他们最好的选择就是控制变量，不要随便变革任何一个环节。

因此Seele能提供的变革和创新，一定是从边缘发生。

葡萄君：怎么算边缘？

王诗沐：除了继续服务个体以外，在企业级合作方面，我们目前会优先服务中小型游戏公司。当然，也有少量大厂在尝试接入Seele。

但不管和哪家公司合作，我们都会建议老板自己先试着用，并且很建议在不干扰现有项目的情况下，新开一条线进行尝试。就像前面说的，Seele根本上是要改变人的工作习惯、心智模式，这是需要适应的。

比如以前立项，大家可能需要策划先去调研方向，出商业计划书，做可玩性分析，再一起评审决定是否立项。接入Seele后，老板可以尝试让AI一天跑出10个demo，成本可能就20美元，也可以让AI去分析市场上对应品类的市场数据表现，接下来大家对着实物demo讨论就好。

葡萄君：但和单模态AI相比，Seele会不会存在「大而全，但不够精细」的问题？比如单论美术这块，Seele可能没法做到极致？

王诗沐：这个问题不大。

一方面，我试过目前市面上大多3D建模AI，发现大家在建模这块的差别没有拉开很大。

今年5月，Seele发布了原生3D多模态大模型EVA01，让3D mesh不再是图像之后的副产品，而是大模型可以直接理解、生成和持续编辑的原生模态，便于用户通过AI对建模进行持续编辑。

另一方面，Seele重塑的其实是游戏工业最贵的环节，也就是压缩从立项到可上线、可变现的完整游戏作品的全链路成本。

开发者通过对话即可端到端生成一款2A品质、支持多人联网、即刻可发行的游戏作品，单个作品的成本可以控制在1000美元以内。相较千万美元级的传统立项投入，这个效率提升是超百倍的。

而一旦开发者实验的玩法，在市场上获得正反馈，他们就可以将整套已具备商业化运营基础的工程，一键导出至Unity、UE或Web，再去做精细化迭代、规模化发行。

所以Seele输出的不是「原型」，而是「开箱即赚」的商业资产。

或者说本质上讲，Seele想解决的是「起点」问题，我们认为这个问题很重要：现在很多游戏公司卷的是同质化竞争买量投流。我们做Seele，在一定程度上就是为跳出这样的环境找切入口。

假设以前一家公司开发10款游戏，单款成本1000万，一共花了1亿成本，而成功率为10%，意味着其中一款游戏能火，那么这家公司大概率就得指望着那一款能火的游戏，至少赚回来一个亿，公司才能活下去。

有了AI后，游戏的成功率可能依然只有10%，但这家公司可以短期内开发1000个游戏，以更低的成本尝试更多点子，摆脱先前冗长的研发试错模式。基数大了，能跑出来的游戏多了，公司营收自然会大很多。

“科研和产品落地，

两者结合”

葡萄君：根据先前对外的技术研究路线图，你们的AI大模型在2026年可以生成2A游戏片段，在2027年能生成3A片段。这里的2A和3A区别是什么？

王诗沐：3A的画面精细度更高，包括光追等技术的呈现，可以让游戏世界的物理效果还原得更逼真。

坦白讲，现阶段Seele的多模态大模型还不能直接生成完整的3A游戏。更准确地说，现在的Seele是将文本、图像、3D、视频等输入，转化为可在游戏引擎中运行和编辑的资产、场景、交互逻辑与游戏原型。游戏中的物理、渲染、碰撞和运行环境，仍需依托Unity、Unreal Engine等引擎来完成。

目前它的作用不是替代引擎，而是向可交互的游戏世界生成演进。

假设我们真要让多模态大模型做出3A级沉浸交互，可能得把游戏引擎的源代码，以及很多游戏公司的3A项目文件丢给大模型去做训练。

这个办法可行性很差，因为游戏引擎发展已有20余年，任何一个3A项目的代码量也都是巨大的。把这些东西丢给当下最强的大模型，它都不一定跑得完。

但世界模型不用依赖引擎，它可以突破这个坎。

葡萄君：所以Seele 3DLMM（多模态大模型）只是你们的中间阶段，终点还得看未来的PEGA（世界模型）？

王诗沐：是。举个例子，如果我们用建模的方式去模拟火焰的效果，可能要写很多代码，难度不低。但如果只是拍一段视频记录火焰，这很简单。

当然，光有视觉表现还不够。关于世界模型，目前业内正在试图攻克一个难题：如何把视觉表征和物理逻辑相统一。比如，世界模型不仅要明白这是火，还要明白火是怎么燃烧的，火是有温度的、会烫伤人。

PEGA的demo，物理模拟就比Seele 3DLMM好很多，有自己的天气系统，会下雨。用多模态大模型来实现这些的话，难度太大了。

葡萄君：也就是说，到了2027年，用户可以用PEGA生成3A游戏？

王诗沐：能生成，但会受到上下文体量的约束。

打个比方，2027年或许业界已经能用世界模型生成《黑神话：悟空》，但这个demo大概只能运行几分钟，因为世界模型在生成内容的同时，需要不断对历史状态进行回溯，保持所生成内容的连贯性，所以上下文空间会极速膨胀，进行指数级的翻倍。

而按Seele自身的Roadmap，2028年会是PEGA世界模型走向规模化的关键时期。实时生成、长效演化、物理一致性等功能，都将在这个阶段趋近成熟。

我个人判断PEGA大概率会在2028年进入L4阶段，其中包含一个外部变量：未来两年内，大模型的上下文承载能力，可能迎来阶跃式突破。届时，PEGA生成的3A游戏，或许能摆脱今天「分钟级体验」的局限，生成更大、更长效的开放世界。

Seele对世界模型的阶段划分

葡萄君：目前市面上也有不少其他研究多模态大模型和世界模型的公司，你们会有竞争压力吗？

王诗沐：压力会有，但在全球范围来看，我们应该算是科研和产品落地两方面结合得比较好的公司，这是我们最大的优势。

具体来说，第一，我们有科研能力，没有的话我们也做不了AI大模型；第二，我们目标明确，知道这个产品做出来之后该如何变现、回本，我们确实有这方面的经验和能力——我以前是产品经理，太擅长干这个了。

单看Seele和PEGA目前的生成效果，我也相信我们在全球处于领先地位。

葡萄君：有多领先？

王诗沐：我试过国内外其他AI生成游戏的产品，包括Astrocade、Rosebud，用各种prompt去摸索这些大模型的上限，发现他们做不出Seele生成的上限效果，所以我很确定我们是目前全球领先的多模态游戏大模型。

当然，如果只是生成类似马力欧的2D游戏，那任何大模型都能做，因为这个程度只需要调用Claude，本质上用Vibe Coding就能做出来。

再说说世界模型。

目前市面上公布出来的部分世界模型，像Genie 3，已经可以让用户直接上手体验生成内容了，但Genie 3存在一致性问题——有些用户玩着玩着一回头，发现来时的路变了。且受上下文体量限制，目前Genie 3世界模型生成的内容只能让用户持续游玩一分钟左右。

李飞飞的世界模型Marble，则是基于3D高斯泼溅（3D Gaussian Splatting）做的，它能生成静态空间，但很难生成交互。比如你可以给Marble一张图或一段文本，来生成一个空间，但很难在这个空间里实现打雷下雨，也很难在这个空间里生成射击玩法——要做也能做，但那就需要在Marble生成的内容基础上，按照传统的、基于游戏引擎的生产链，去加内容。

而PEGA跳出了Genie 3和Marble的训练范式，我们有自己的独特技术路线，这个方法不便对外。就结果来看，我们目前生成的世界模型demo，不仅能保持一致性，时长也能撑到十几分钟左右。

“AI时代大家能选的，

不只有打工这条路”

葡萄君：把时间拉长看，等到未来AI发展足够成熟，你觉得那时的游戏行业会是什么样？

王诗沐：游戏会百花齐放，厉害的开发者依旧会很厉害。

大厂和小团队的区别依然存在，因为大厂过往积攒的游戏资产、数据更多，能够投入的资金力度也更大，更有能力去追求极高的艺术品质。但在实现创意这点上，大厂和小团队会处于同一起跑线。

通过抄袭、快速买量变现的同质化竞争，会消失。

未来不止有传统的游戏引擎，因为世界模型不需要依赖游戏引擎。

对应的，除了传统的，基于游戏引擎搭建的工作流管线，以及策划、美术、程序、发行等岗位，未来还会出现新型的游戏制作管线，新类型的岗位。

葡萄君：游戏人可能大批下岗？

王诗沐：有人说AI生产力革命之后，未来的工作岗位会大幅降低。我觉得肯定不会。

回看历史，蒸汽和电气革命让岗位大幅减少了吗？没有，只是岗位迁移了：以前大家骑马，有了汽车后，养马的人去办赛马会，或是去做旅游业了；纺织机器出现后，意大利和法国的高级时装定制品牌，依然需要手工裁缝。

工作岗位不会消亡，只是生产力发达后，会有新职位出现。在AI之后，一定会有新的游戏相关职位出现。

至于具体会出现什么样的新岗位，这不是个体需要考虑的问题，为此焦虑没有意义。

葡萄君：很难不焦虑啊。

王诗沐：关于工作，我一贯的看法是：在能养活自己的基础上，你喜欢什么就去做什么。

人活一辈子，干自己喜欢的事不好吗？说起来有些玄学，但人的能量就是这样，你干自己喜欢的事，能量就越强，未来才有好的回报，才能遇到好事情。

我之前做视频号直播时也说过，All in AI，可以，觉得AI不关自己的事，也可以。你要选发自内心的方向，而不是被时代裹挟。

葡萄君：我记得你说自己认同一个观点：「未来游戏公司只有两种，充分使用AI的，和非物质文化遗产」。所以不用AI的团队也有办法活下来？

王诗沐：当然有办法。全球60亿人口，总会有多样化需求，而且当未来大家都用AI快速变现idea时，手搓就会显得珍贵。

现在很多人喝咖啡都讲究喝手冲的，一样的道理。

关键在于，AI生产力变革时代下，大家该意识到，自己是有得选的。

葡萄君：有什么样的选择？

王诗沐：比如在厂商里，一个有想法的年轻人，可以号召一帮小伙伴，跟老板申请，不花太多资源，用AI试着去做一些东西。

字节前不久首曝了AI生成的互动影游《不问凡尘》，那个团队人数就不多。

《不问凡尘》很长时间只有个位数的人力投入

目前也不超过20人

再比如，一个非从业者想做游戏，同时自己的经济负担不算重，那这时摆在他面前的选择就有两个，一是进厂商，二是通过AI自己做游戏，成立一个小工作室。

现在大家能选的，不只有打工这一条路。

葡萄君：可是自己创业工资低，这算有得选吗？

王诗沐：自己创业刚开始肯定会苦一些。但未知意味着风险，也意味着高杠杆回报，我在厂商做螺丝钉，可以拿死工资，但永远不可能有超百倍的高杠杆回报。

而在生产力发生巨大变革的时代，收获高杠杆回报的可能性是更大的。对那些有想法、有冲劲，愿意去赌去拼的人来说，这就是窗口机会。

我前段时间刷到《漕河泾的年轻人》，那篇文章描述的就是「在大厂里赚了很多钱，但生活和精神状态不太好」的人群。

我虽然没在传统游戏行业做过，但年轻时也有过类似的经历。区别在于我不内耗，我知道那条路是我自己选的。

我很推荐现在的年轻人去看看加缪和萨特的书，他们从存在主义理论上论证了人都是有选择的，只不过有些人被「绑架」了。一方面是来自外力的绑架，另一方面是自己绑架自己——有时人不是没得选，而是逃避选择。

况且我相信，AI能放大人的价值。

葡萄君：如何放大？

王诗沐：我们前不久内部进行了一场AI全自动化办公的实验，目标是成为一个完全由AI覆盖生产力的公司。

今年3月，我在公司宣布了这件事，当时内部很多同学没当真，觉得「哥们儿只是为了整活发公众号」。后来每周我开会都提这事，他们才明白我是来真的。

现在我们团队不管是上一个Skill，还是分析一个东西，或是查bug，首先是让AI干，有AI实在没法解决的问题，再人工干预。

我们甚至不需要每天告诉AI该干什么活，因为可以提前给AI安排好定时任务。

王诗沐在公众号“幕后产品”上

连载了公司AI自动化办公的演进过程

葡萄君：活都让AI干了，你们还需要人吗？

王诗沐：需要啊。比如我们现在会让AI拿Seele和其他优秀的大模型做对比评测，但没有人的话，AI哪会有自主评测的意识呢？

前后区别在于，现在我们生产效率更高，人与人之间的沟通更有效，人的想法也被解放出来了。

以前我总有很多想法，而团队会疲于应付我的想法。一线员工都忙着干活，没精力去尝试自己的想法，也没多少时间与同事深度沟通。

现在我们让AI干活，一线员工就有更多精力用AI做新尝试，大家也有更多时间互相交流想法，沟通顺畅了很多。

如果没有AI全自动化生产的加持，可能我们现在这33人还不够用，需要招更多人来帮忙，而人越多，信息损失率就越大，变量就越大。

葡萄君：但AI这个领域变化一直很快，你不会有创业焦虑吗？

王诗沐：会焦虑，这是正常的。

我认为如果是追求高风险高回报的人，任何时候都应该去创业。我就是这种人：高风险，焦虑，这些在我看来就是创造的伴生品，我有预期，也愿意去承受。

很平稳、很有确定性的事，我反而没兴趣去做。

不如说，这次创业让我感到很快乐。我不用花时间和精力去思考如何说服别人了。同时，正反馈还来得很快——

我指的不是像挣钱那样的正反馈，而是说团队遇到困难、解决困难，那对我来说就是一种正反馈。