前腾讯总经理创业,产品大神王诗沐:AI不会让游戏人下岗

修改于昨天 23:491 浏览综合
TapTap
“人活一辈子,干自己喜欢的事不好吗?”
文/王丹
蛰伏多年,王诗沐最近出山了。
相信不少互联网从业者,尤其是产品经理,都听说过他的大厂故事:王诗沐于2010年加入网易,曾任网易云音乐高管;2019年,他加入腾讯,曾任腾讯总经理GM L3-3,先后参与过小鹅拼拼、腾讯新闻、幻核等业务。
但2022年离开腾讯后,王诗沐没再进大厂,而是创业成立Seele,专注于3D游戏生成AI大模型。
TapTap
图源知乎
自创业以来,王诗沐鲜少露面。直到今年4月百度智能云论坛,王诗沐才终于来到台前:“2022年出来(创业)之后,外界基本上很少知道我们公司以及我的消息……这是我们第一次对外分享我们的技术模型。”
6月初,他们还在上海举办了发布会,对外官宣了原生3D多模态基础模型Seele 3DLMM,并预告了公司在研的世界模型PEGA(Physics Embedded Generative Architecture,物理嵌入式生成架构)。
这像是一个激进的信号:Seele多年的低调已经结束,接下来他们会放开手脚开拓市场。
TapTap
但问题来了:目前市面上AI游戏生成工具这么多,Seele不一样在哪?
抱着这个疑问,葡萄君最近和王诗沐聊了聊。他告诉我,不管是在多模态游戏大模型领域,还是世界模型领域,他都很确认Seele处于领先地位。
不过,他们的最终目标不是为游戏研发降本增效,是改变游戏从业者的心智,而这个过程会颠覆现有的生产链和职能架构——在他的预想中,未来,游戏行业不会只有策划、美术、程序、发行这样的传统岗位,游戏人也不必非要进厂商当齿轮、螺丝钉。
听到这儿我慌了:所以AI真的会让大批游戏人下岗?王诗沐却坚定地告诉我不会,他相信生产力变革会产生新型岗位,也相信AI在解放生产力的同时,能够进一步放大人的价值,解放人的双手:
“游戏会百花齐放,厉害的开发者依旧会很厉害。”
01
“让人成为真正的创造者,
而不是齿轮、螺丝钉”
葡萄君:2022年你选择离职创业,当时是怎么考虑的?
王诗沐:一方面,我觉得人活一辈子,要干自己喜欢的事。
我喜欢创造,我并不是为了挣钱才创业。从上学到现在,我做任何一个工作,脑子里都在琢磨:我能创造什么东西?
大三时,因为喜欢软件,我做了自己的个人网站,也接单帮别人做过网站。这些实践经历让我校招进了支付宝。
而我在支付宝做前端时,和其他同事习惯也不一样。大家可能做完一个需求就接下一个,而我经常会找产品经理Argue,说哪些设计做得有问题,说用户上手会有困难。
因为时常「吵」不过产品经理,我当时还写了很多blog,自己分析如何能给用户创造更好的体验。
自始至终,我都不喜欢去做「为完成任务而干活」的工作。哪怕我把产品做失败了,或者我没怎么赚到钱,工资没怎么涨,我都不会有特别强的挫败感。
所以我会觉得喜欢是第一原动力。
另一方面,我觉得生产力变革时期,个体不需要焦虑,只要知道自己走的大方向是对的,就够了。
葡萄君:怎么判断大方向是对是错?
王诗沐:看趋势这事,需要一定的经验,以及积累下来的方法。
如果一个人接收的信息不够多,经过的思考也不够多,那就不一定能判断趋势。
所以从工作的第一天开始,就应该尝试去看趋势。但不能很假大空地看——你今天读了100份上市公司的研报,看了100个投资案例,那不代表什么,你看的都是别人的东西,只有看过后,自己消化且付诸实践了,才算是一次完整的练习。
就像王阳明说的,要知行合一。
我之前写《幕后产品:打破突破式产品思维》,在序言里就有提到,这本书讲的是我的思考方式,但不意味着大家就应该按照我的思考方式来,我只是把我前前后后思考的脉络呈现出来,希望读者能借此意识到,思考是可以训练的。
不停训练思考,你对趋势的分析就会越来越强。
当你有机会把趋势、热爱结合起来,你就能够做很多自己想去做的事情,这一生就算是把自己活出来了。
葡萄君:所以你为什么会选择AI生成游戏这个大方向?
王诗沐:我相信几个基本的东西。
第一,我不认同说技术没有价值观,我相信它有。
一些短视频平台会给用户推荐低俗、迎合低级趣味的内容,我觉得这不好。如果没有人去做更好的科技产品,大家就会进一步被洗脑、越来越沉迷于「奶头乐」。
第二,我相信人类要有互动学习。
如果人每天完全不动脑,不进行互动和学习,那就会越来越傻,最终被淘汰掉。
第三,我相信AI生产力革命,可以极大释放每个人的创造力。
每个人在小时候都有充分的想象力,只是在后面长大的过程中,这种想象力被慢慢压制了。我相信未来AI生产力提升后,大家的想象力能被解放出来。
这也是我为什么要做游戏生成式AI——游戏是很好的切入点,它具备极强的互动性,且能承载开发者的创造力和价值观。
葡萄君:你们定义Seele是首个端到端的3D游戏大模型,这两个端分别对应什么?
TapTap
王诗沐:输入端,是用户的创意,人类的奇思妙想。
至于输出端,目前Seele能输出完整、可运行的游戏作品,包括联网对战等游玩功能也可以做出来。
这不是输出端的终点。把游戏做出来只是第一步,游戏最终表现如何,还要看发行、推广、运营、变现……我们还会进一步往后推,让Seele最终覆盖游戏整个运营生命周期。
TapTap
TapTap
Seele社区里的用户生成作品之一。据王诗沐先前分享,他们通过后台日志查到,用户和Seele对话几个小时便做出了这款游戏。
但当下光说生成游戏,我们已经能看到一些AI涌现式的惊喜了。
葡萄君:什么样的惊喜?
王诗沐:最近有位用户用我们的Skill生成了一个FPS游戏,之后又和AI说再生成一个过山车游戏。
Seele的工作区是统一的,用户可以在工作区内生成不同游戏,且上下文记忆相通,所以Seele自己做了个决策:把FPS和过山车组合在一起,生成「玩家和敌人都在坐过山车,然后又要互相射击」的游戏。
AI不会判断这个点子是好是坏。只是东西就在那儿,上下文互通,AI就那么做了。
这事让我更加深信AI能帮到人类,而不单单是执行命令。AI的计算效率很高,它能很快计算、涌现出奇形怪状的结果,解锁很多可能性。
虽然不是每个涌现结果都一定好玩,但相较于手搓demo,这个试错成本足够低——假设用户认为「过山车射击」游戏不好玩,那也才消耗几百个token而已。
当然,现在的Seele还不够全知全能。我们最近发现有些用户反复和Seele聊同件事,但Seele很难一次性解决问题。
葡萄君:为什么?
王诗沐:部分用户不了解游戏开发,这导致他们与Seele交流时认知难以达成一致。
毕竟和图片、文本、视频生成不一样,游戏生成的链条很长,且单个环节都可能牵扯出大量信息——单说建模,就有大量数据要处理,更别说后面还有关卡设计等环节。
所以有时用户让Seele解决一个问题,Seele说解决了,但问题还在,用户会很受挫。实际上Seele并非没有尝试去解决,只是Seele很难一次性找到出问题的地方。
比如我们生成一个肉鸽游戏,发现遇到的BOSS总是同一个。这背后可能有几种情况:第一是分支树出问题;第二,分支树没问题,但状态机出了问题;第三,可能表现层出问题,BOSS的美术资产加载错了……
让AI把整个链条从头到尾都查一遍,开销过大。靠用户去引导AI找到问题,也不行,不是每个用户都有debug经验。
葡萄君:这事有解吗?
王诗沐:首先要看模型能力的提升。
此外,还有一个更方便的解法:把游戏开发高手的知识经验做成Skill。好比让老手带徒弟,老手大概率能一眼看出问题在哪,徒弟解决问题的效率就会高很多。
这样一来,用户就算没有游戏制作经验,也不影响。
葡萄君:那岂不是Skill越多越好?
王诗沐:过多Skill会增加Harness复杂度,这会约束模型本身的能力。而且模型自己内化的能力越强,就越不需要具体的、Low Level的Skill。
我们只会尽量抽象出High Level的能力做成Skill,剩下的让AI放手干。相当于要在AI的约束性、AI的涌现效果之间找到平衡。不能把AI约束成只会执行、不会涌现的工具。
我们认为,Seele生成游戏的真正约束,更多来源于人和AI的交互,我们不能在这个过程中把人的主体性或者能动性完全抹掉——一句话14个字,AI就生成一个完美游戏,那是违背人工智能的,对人也是不友好的,人在这个过程中完全没有参与感。
不只是游戏领域,视频、图片、文本生成也是一样。你想让AI写小说,但仅给AI一句话,那AI只会输出干燥乏味的笔记。生成内容要做得好,AI始终需要人的创意、知识、灵感。
葡萄君:创意依然取决于人,AI更多是降本增效的辅助工具?
王诗沐:降本增效太局限了,Seele的价值也并不是单点、单段生成素材。
像这代Seele 3DLMM,我们采用的是Mixture-of-Transformers(MoT)架构,通过共享全局自注意力,来实现跨模态信息融合。这样一来,3D与空间信息就不再只是外部工具拼接的结果,而是可以参与模型推理、编辑和生成的对象。
这意味着AI可以直接进入项目生产,在同一上下文中理解游戏工程、协同资产与工具链,跑通从创意到原型的完整流程。
归根结底,Seele最大的不同在于,它能让开发团队逐渐改变自己的心智。
因为我们想实现的是:让人成为真正的人,而不是一个齿轮、螺丝钉。
为什么很多人说自己不热爱工作?因为很多人是在「完成交给自己的任务」。
现在AI带动生产力提升,我觉得提高工作效率只是最基础的一层。更关键的是,有了AI,从业者不必再被束缚在具体的职能环节里——一个在游戏行业里码了10年代码的程序,难道一点做游戏的想法都没有吗?他应该也可以用AI生成自己想做的游戏。
葡萄君:感觉这个转变,对目前现有的游戏生产链条、职能分工来说,变动有些太大了。
王诗沐:我理解有些游戏厂商倾向于使用辅助单环节的AI工具,或是做一个AI工具集合平台。因为现有这套生产链流程是已验证、行之有效的。
你要求厂商从一个已知可盈利的模式,切换到一个全新的模式,很难。
但现有的模式,是一个由很多环节构成的长链条,这里面变量太多了,人和人沟通协作天然就有信息损失率,人一多就难管,大家只能靠大量的人工,比如项目经理等岗位,来锁死变量。
你说有没有允许全员提想法的团队?也有。像任天堂的《朋友收集:梦想生活》,就允许每个员工都提出自己的idea,但他们做了9年才做出来。
TapTap
葡萄君:好歹结果不错,算好的了。
王诗沐:你也说了这算好的,那大部分公司更不可能冒着风险,让每个员工提自己的想法。
对于已经挣钱的项目来说,他们最好的选择就是控制变量,不要随便变革任何一个环节。
因此Seele能提供的变革和创新,一定是从边缘发生。
葡萄君:怎么算边缘?
王诗沐:除了继续服务个体以外,在企业级合作方面,我们目前会优先服务中小型游戏公司。当然,也有少量大厂在尝试接入Seele。
但不管和哪家公司合作,我们都会建议老板自己先试着用,并且很建议在不干扰现有项目的情况下,新开一条线进行尝试。就像前面说的,Seele根本上是要改变人的工作习惯、心智模式,这是需要适应的。
比如以前立项,大家可能需要策划先去调研方向,出商业计划书,做可玩性分析,再一起评审决定是否立项。接入Seele后,老板可以尝试让AI一天跑出10个demo,成本可能就20美元,也可以让AI去分析市场上对应品类的市场数据表现,接下来大家对着实物demo讨论就好。
葡萄君:但和单模态AI相比,Seele会不会存在「大而全,但不够精细」的问题?比如单论美术这块,Seele可能没法做到极致?
王诗沐:这个问题不大。
一方面,我试过目前市面上大多3D建模AI,发现大家在建模这块的差别没有拉开很大。
TapTap
今年5月,Seele发布了原生3D多模态大模型EVA01,让3D mesh不再是图像之后的副产品,而是大模型可以直接理解、生成和持续编辑的原生模态,便于用户通过AI对建模进行持续编辑。
另一方面,Seele重塑的其实是游戏工业最贵的环节,也就是压缩从立项到可上线、可变现的完整游戏作品的全链路成本。
开发者通过对话即可端到端生成一款2A品质、支持多人联网、即刻可发行的游戏作品,单个作品的成本可以控制在1000美元以内。相较千万美元级的传统立项投入,这个效率提升是超百倍的。
而一旦开发者实验的玩法,在市场上获得正反馈,他们就可以将整套已具备商业化运营基础的工程,一键导出至Unity、UE或Web,再去做精细化迭代、规模化发行。
所以Seele输出的不是「原型」,而是「开箱即赚」的商业资产。
或者说本质上讲,Seele想解决的是「起点」问题,我们认为这个问题很重要:现在很多游戏公司卷的是同质化竞争买量投流。我们做Seele,在一定程度上就是为跳出这样的环境找切入口。
假设以前一家公司开发10款游戏,单款成本1000万,一共花了1亿成本,而成功率为10%,意味着其中一款游戏能火,那么这家公司大概率就得指望着那一款能火的游戏,至少赚回来一个亿,公司才能活下去。
有了AI后,游戏的成功率可能依然只有10%,但这家公司可以短期内开发1000个游戏,以更低的成本尝试更多点子,摆脱先前冗长的研发试错模式。基数大了,能跑出来的游戏多了,公司营收自然会大很多。
02
“科研和产品落地,
两者结合”
葡萄君:根据先前对外的技术研究路线图,你们的AI大模型在2026年可以生成2A游戏片段,在2027年能生成3A片段。这里的2A和3A区别是什么?
TapTap
王诗沐:3A的画面精细度更高,包括光追等技术的呈现,可以让游戏世界的物理效果还原得更逼真。
坦白讲,现阶段Seele的多模态大模型还不能直接生成完整的3A游戏。更准确地说,现在的Seele是将文本、图像、3D、视频等输入,转化为可在游戏引擎中运行和编辑的资产、场景、交互逻辑与游戏原型。游戏中的物理、渲染、碰撞和运行环境,仍需依托Unity、Unreal Engine等引擎来完成。
目前它的作用不是替代引擎,而是向可交互的游戏世界生成演进。
假设我们真要让多模态大模型做出3A级沉浸交互,可能得把游戏引擎的源代码,以及很多游戏公司的3A项目文件丢给大模型去做训练。
这个办法可行性很差,因为游戏引擎发展已有20余年,任何一个3A项目的代码量也都是巨大的。把这些东西丢给当下最强的大模型,它都不一定跑得完。
但世界模型不用依赖引擎,它可以突破这个坎。
葡萄君:所以Seele 3DLMM(多模态大模型)只是你们的中间阶段,终点还得看未来的PEGA(世界模型)?
王诗沐:是。举个例子,如果我们用建模的方式去模拟火焰的效果,可能要写很多代码,难度不低。但如果只是拍一段视频记录火焰,这很简单。
当然,光有视觉表现还不够。关于世界模型,目前业内正在试图攻克一个难题:如何把视觉表征和物理逻辑相统一。比如,世界模型不仅要明白这是火,还要明白火是怎么燃烧的,火是有温度的、会烫伤人。
PEGA的demo,物理模拟就比Seele 3DLMM好很多,有自己的天气系统,会下雨。用多模态大模型来实现这些的话,难度太大了。
葡萄君:也就是说,到了2027年,用户可以用PEGA生成3A游戏?
王诗沐:能生成,但会受到上下文体量的约束。
打个比方,2027年或许业界已经能用世界模型生成《黑神话:悟空》,但这个demo大概只能运行几分钟,因为世界模型在生成内容的同时,需要不断对历史状态进行回溯,保持所生成内容的连贯性,所以上下文空间会极速膨胀,进行指数级的翻倍。
而按Seele自身的Roadmap,2028年会是PEGA世界模型走向规模化的关键时期。实时生成、长效演化、物理一致性等功能,都将在这个阶段趋近成熟。
我个人判断PEGA大概率会在2028年进入L4阶段,其中包含一个外部变量:未来两年内,大模型的上下文承载能力,可能迎来阶跃式突破。届时,PEGA生成的3A游戏,或许能摆脱今天「分钟级体验」的局限,生成更大、更长效的开放世界。
TapTap
Seele对世界模型的阶段划分
葡萄君:目前市面上也有不少其他研究多模态大模型和世界模型的公司,你们会有竞争压力吗?
王诗沐:压力会有,但在全球范围来看,我们应该算是科研和产品落地两方面结合得比较好的公司,这是我们最大的优势。
具体来说,第一,我们有科研能力,没有的话我们也做不了AI大模型;第二,我们目标明确,知道这个产品做出来之后该如何变现、回本,我们确实有这方面的经验和能力——我以前是产品经理,太擅长干这个了。
单看Seele和PEGA目前的生成效果,我也相信我们在全球处于领先地位。
葡萄君:有多领先?
王诗沐:我试过国内外其他AI生成游戏的产品,包括Astrocade、Rosebud,用各种prompt去摸索这些大模型的上限,发现他们做不出Seele生成的上限效果,所以我很确定我们是目前全球领先的多模态游戏大模型。
当然,如果只是生成类似马力欧的2D游戏,那任何大模型都能做,因为这个程度只需要调用Claude,本质上用Vibe Coding就能做出来。
再说说世界模型。
目前市面上公布出来的部分世界模型,像Genie 3,已经可以让用户直接上手体验生成内容了,但Genie 3存在一致性问题——有些用户玩着玩着一回头,发现来时的路变了。且受上下文体量限制,目前Genie 3世界模型生成的内容只能让用户持续游玩一分钟左右。
李飞飞的世界模型Marble,则是基于3D高斯泼溅(3D Gaussian Splatting)做的,它能生成静态空间,但很难生成交互。比如你可以给Marble一张图或一段文本,来生成一个空间,但很难在这个空间里实现打雷下雨,也很难在这个空间里生成射击玩法——要做也能做,但那就需要在Marble生成的内容基础上,按照传统的、基于游戏引擎的生产链,去加内容。
而PEGA跳出了Genie 3和Marble的训练范式,我们有自己的独特技术路线,这个方法不便对外。就结果来看,我们目前生成的世界模型demo,不仅能保持一致性,时长也能撑到十几分钟左右。
03
“AI时代大家能选的,
不只有打工这条路”
葡萄君:把时间拉长看,等到未来AI发展足够成熟,你觉得那时的游戏行业会是什么样?
王诗沐:游戏会百花齐放,厉害的开发者依旧会很厉害。
大厂和小团队的区别依然存在,因为大厂过往积攒的游戏资产、数据更多,能够投入的资金力度也更大,更有能力去追求极高的艺术品质。但在实现创意这点上,大厂和小团队会处于同一起跑线。
通过抄袭、快速买量变现的同质化竞争,会消失。
未来不止有传统的游戏引擎,因为世界模型不需要依赖游戏引擎。
对应的,除了传统的,基于游戏引擎搭建的工作流管线,以及策划、美术、程序、发行等岗位,未来还会出现新型的游戏制作管线,新类型的岗位。
葡萄君:游戏人可能大批下岗?
王诗沐:有人说AI生产力革命之后,未来的工作岗位会大幅降低。我觉得肯定不会。
回看历史,蒸汽和电气革命让岗位大幅减少了吗?没有,只是岗位迁移了:以前大家骑马,有了汽车后,养马的人去办赛马会,或是去做旅游业了;纺织机器出现后,意大利和法国的高级时装定制品牌,依然需要手工裁缝。
工作岗位不会消亡,只是生产力发达后,会有新职位出现。在AI之后,一定会有新的游戏相关职位出现。
至于具体会出现什么样的新岗位,这不是个体需要考虑的问题,为此焦虑没有意义。
葡萄君:很难不焦虑啊。
王诗沐:关于工作,我一贯的看法是:在能养活自己的基础上,你喜欢什么就去做什么。
人活一辈子,干自己喜欢的事不好吗?说起来有些玄学,但人的能量就是这样,你干自己喜欢的事,能量就越强,未来才有好的回报,才能遇到好事情。
我之前做视频号直播时也说过,All in AI,可以,觉得AI不关自己的事,也可以。你要选发自内心的方向,而不是被时代裹挟。
葡萄君:我记得你说自己认同一个观点:「未来游戏公司只有两种,充分使用AI的,和非物质文化遗产」。所以不用AI的团队也有办法活下来?
王诗沐:当然有办法。全球60亿人口,总会有多样化需求,而且当未来大家都用AI快速变现idea时,手搓就会显得珍贵。
现在很多人喝咖啡都讲究喝手冲的,一样的道理。
关键在于,AI生产力变革时代下,大家该意识到,自己是有得选的。
葡萄君:有什么样的选择?
王诗沐:比如在厂商里,一个有想法的年轻人,可以号召一帮小伙伴,跟老板申请,不花太多资源,用AI试着去做一些东西。
字节前不久首曝了AI生成的互动影游《不问凡尘》,那个团队人数就不多。
TapTap
《不问凡尘》很长时间只有个位数的人力投入
目前也不超过20人
再比如,一个非从业者想做游戏,同时自己的经济负担不算重,那这时摆在他面前的选择就有两个,一是进厂商,二是通过AI自己做游戏,成立一个小工作室。
现在大家能选的,不只有打工这一条路。
葡萄君:可是自己创业工资低,这算有得选吗?
王诗沐:自己创业刚开始肯定会苦一些。但未知意味着风险,也意味着高杠杆回报,我在厂商做螺丝钉,可以拿死工资,但永远不可能有超百倍的高杠杆回报。
而在生产力发生巨大变革的时代,收获高杠杆回报的可能性是更大的。对那些有想法、有冲劲,愿意去赌去拼的人来说,这就是窗口机会。
我前段时间刷到《漕河泾的年轻人》,那篇文章描述的就是「在大厂里赚了很多钱,但生活和精神状态不太好」的人群。
我虽然没在传统游戏行业做过,但年轻时也有过类似的经历。区别在于我不内耗,我知道那条路是我自己选的。
我很推荐现在的年轻人去看看加缪和萨特的书,他们从存在主义理论上论证了人都是有选择的,只不过有些人被「绑架」了。一方面是来自外力的绑架,另一方面是自己绑架自己——有时人不是没得选,而是逃避选择。
况且我相信,AI能放大人的价值。
葡萄君:如何放大?
王诗沐:我们前不久内部进行了一场AI全自动化办公的实验,目标是成为一个完全由AI覆盖生产力的公司。
今年3月,我在公司宣布了这件事,当时内部很多同学没当真,觉得「哥们儿只是为了整活发公众号」。后来每周我开会都提这事,他们才明白我是来真的。
现在我们团队不管是上一个Skill,还是分析一个东西,或是查bug,首先是让AI干,有AI实在没法解决的问题,再人工干预。
我们甚至不需要每天告诉AI该干什么活,因为可以提前给AI安排好定时任务。
TapTap
王诗沐在公众号“幕后产品”上
连载了公司AI自动化办公的演进过程
葡萄君:活都让AI干了,你们还需要人吗?
王诗沐:需要啊。比如我们现在会让AI拿Seele和其他优秀的大模型做对比评测,但没有人的话,AI哪会有自主评测的意识呢?
前后区别在于,现在我们生产效率更高,人与人之间的沟通更有效,人的想法也被解放出来了。
以前我总有很多想法,而团队会疲于应付我的想法。一线员工都忙着干活,没精力去尝试自己的想法,也没多少时间与同事深度沟通。
现在我们让AI干活,一线员工就有更多精力用AI做新尝试,大家也有更多时间互相交流想法,沟通顺畅了很多。
如果没有AI全自动化生产的加持,可能我们现在这33人还不够用,需要招更多人来帮忙,而人越多,信息损失率就越大,变量就越大。
葡萄君:但AI这个领域变化一直很快,你不会有创业焦虑吗?
王诗沐:会焦虑,这是正常的。
我认为如果是追求高风险高回报的人,任何时候都应该去创业。我就是这种人:高风险,焦虑,这些在我看来就是创造的伴生品,我有预期,也愿意去承受。
很平稳、很有确定性的事,我反而没兴趣去做。
不如说,这次创业让我感到很快乐。我不用花时间和精力去思考如何说服别人了。同时,正反馈还来得很快——
我指的不是像挣钱那样的正反馈,而是说团队遇到困难、解决困难,那对我来说就是一种正反馈。
TapTap