腾讯、莉莉丝等员工分享：如何更好地用新技术「摸鱼」？

2023/12/27107 浏览综合

编者按：自去年ChatGPT爆火以来，关于AI+游戏的讨论就一直没有停止过，并且逐渐两极化：一方面是大量「万字长文解析AI」、「AI再度刷新记录」等文章的轮番轰炸；另一方面则是始终有些「难产」的新技术和新落地形式。

换句话说，除了生产素材等通用解法外，我们希望看到AI在更多游戏研发的实践中落地，在保证效率和成品效果的同时，让人类能更好地「摸鱼」。

为了综合游戏开发和AI技术的多方视角，游戏扳机邀请了某头部工作室项目AI负责人Rolan、莉莉丝内容算法负责人胶水、腾讯光子工作室TA黄志翔、聆心智能联合创始人兼CTO郑叔亮、「绝世好武功」制作人留白，共同探讨AI在实践落地中的困难、具体和Gameplay的结合形式。

以下为本次分享的原文：

Rolan，某头部工作室项目AI负责人，算法研究跨策划的游戏AIer，NLP科班出身，早前在大厂AI中台做研究员，后接触游戏AI业务后转做基于RL的AI agent研究和落地；为推进AI技术在游戏研发尤其是玩法体验侧的落地，从中台来到工作室；目前任项目AI组负责人兼任AI技术策划，团队主攻基于RL和LLM的AI agent技术。胶水，莉莉丝内容算法负责人，清本美硕，曾在新能源汽车、游戏等行业从事AI相关工作，专业领域包含数据科学、深度学习及生成式人工智能，职能包含算法研究、算法开发、算法工程部署及产品业务负责人。过去项目经历包括游戏内聊天机器人、角色动作生成管线、游戏关卡AI及语音生成模仿算法等。目前主要在开发落地基于LLM的复杂应用构建，如智能客服Copilot Agent、AI伙伴Agent。黄志翔，腾讯光子工作室TA ，LitGate 社区入驻达人，《玩具帝国》制作人，从RPG Maker玩到Unity、UE的独立游戏人。郑叔亮，聆心智能联合创始人兼CTO，清华大学计算机系本硕，曾任四达时代集团研究院首席架构师和大视频事业部VP，宝尊电商AI Lab技术总监，曾参与创办心理教育公司北京大脑智库，聆心智能是第二次创业。喜欢学习研究各类技术和解决方案，包括视频、大数据、AI等，近两年开始学习大模型，深陷其中不能自拔。留白，幻魔寺「绝世好武功」制作人，一直在修行，总想干点不好干的事。成志&ROSA，主持人，AI+游戏市场观察者，GameTrigger投资副总裁

他们探讨的话题包括但不限于：

究竟什么是AI原生游戏？

AI目前与Gameplay的结合主要在哪些方面？

Character AI算是游戏吗？

智能NPC的构成有哪些关键设计？

面对技术选型问题，有时候真的需要AI吗？

LLM驱动Vtuber会是一个有趣的方向吗？

究竟什么是AI原生游戏

Rolan

原生这个词最早是在讲技术层的云原生，LLM是去年年末在NLP的圈子开始火的第一波，ChatGPT真正出圈是在今年年初，当时已经有人开始去提所谓的LLM Native App，只是还没延伸到游戏。

一开始我本人并没有这么认同这个概念，有人可能是出于对新技术的兴奋感，但我觉得太早了，你说是在工程层面的大飞跃那我信，可C端体验和技术之间差的还挺远，甚至ChatGPT本身也不足以称为一个产品。

而后来各类产品出现，我自己也在游戏内做了些功能层面的探索，逐渐发现这个命题也许没这么虚。即使抛开游戏不说，LLM作为一种C端功能，基本有两大类，一是作为工具，以ChatGPT为代表的一派；二也是我们比较关心的娱乐项目这一块，以游戏为主，也开始看到一些【只有基于LLM技术，才能够有的体验】，这也是我对LLM Native的定义。

另一方面，LLM能够做的增效，有时候可能本质上是它能够帮你更好的功能可扩展化。我们在做强化学习时也会发现它提供的体验并不一定比行为树强多少，它更多的是能把战斗Bot这个功能给Scaling，即用行为树不一定能这么快Scale到这么多角色或者场景，但是用强化管线可以。它不是跟Play层面结合的新体验，但这种能力某种程度上算是研发层面的native，而这种管线能力是可能催生更多的设计空间的，会间接带来新的设计体验。

成志

最近《逸剑风云决》很火，在RPG方向上，LLM究竟能有什么帮助，或者说我们真的需要一个LLM在里面吗？

Rolan

我感觉这款游戏比较偏线性叙事体验，有点像月影传说系列、剑侠情缘系列，但是它又加了一些相对有自由度的设计，有一点开放世界的感觉。我原本认为这种体验以叙事、堆数值为主、主角有角色模板的，没什么AI可加。

但我今天发现在做任务时，如果有剧情和队伍里的NPC相关，可能会触发新的对话，给玩家新的信息。这些NPC的主剧情过完之后，我其实只是把他们当做打架时的挂件，缺乏相关的叙事表现，也没有太强的养成层面的互动。

而这种穿插在其他剧情里的小互动，我还挺喜欢的，很多JRPG也有类似设计，包括传说系列和异度之刃系列，这种可能比较合适用AI去赋能。

这就可以引申到有什么地方适合用LLM的问题。很多人第一反应就是做智能NPC，这件事的吊诡之处在于ROI可能算不明白，NPC在智能程度上可以分三层，第一个是路人，之前有老滚的GPT Mod，基本上是用在路人NPC身上，但即使智能化了，它对整个游戏的体验影响也不大。

第二类就像我刚才说的JRPG里很多非主角团的携带性NPC，他们有一定故事背景和个性，但不是核心的叙事角色，所以ooc的风险相对较低。这类NPC做智能化收益相对较高，类似刚才剧情里的互动，而且还能扩展游戏原生世界的叙事能力，提供碎片化叙事的手段。

最高层的NPC是很多人都想讲、也是各种二游或者叙事型游戏里成分很大的NPC，但这一类才是最危险的，二游尤其是女性向游戏的玩家对这一块的容忍度其实很低，他们的重点会放在角色本身带来的、很确定性的叙事内容上，是游戏呈现给玩家的第一手资料。

而Character AI做的其实是角色IP的二创，不在游戏的原生内容里。我们现在讨论的是游戏原生内容，而一创场景里做这类功能是很危险的，别说上线了，现在哪怕是辅助文案创作都是比较难的，虽然的确有在尝试落地这个功能（指辅助文案创作）的团队。

AI目前与游戏Gameplay的结合在哪些方面

成志

最近《逸剑风云决》很火，在RPG方向上，LLM究竟能有什么帮助，或者说我们真的需要一个LLM在里面吗？

在更加开放的沙盒游戏中，NPC该承担怎样的角色，怎么样大家才会愿意去对话交互？另外，留白老师立项时为什么没有选择线性RPG，而是更开放的沙盒。

留白

我们在立项《绝世好武功》时也在琢磨怎么做出一些新的突破，NPC在线性游戏的作用涵盖了故事背景、剧情引入等重要环节，而在我做的开放世界沙盒游戏里，NPC的主要作用第一是丰富世界环境，让玩家在游戏世界里可以遇到形形色色的人，给玩家产生一种在跟很多人玩，而不只是AI的感觉。

我们现在还没有用到大模型，因为不管是逻辑思考还是执行层面，由于我们也不是做技术的，很多具体实践方案不知道怎么去做。目前还是通过比较笨的办法去补充细节，包括各个NPC的行为会产生哪些影响、数值的变动是什么样的规则等等。

我们从底层开始设计框架，包括世界的构成、可交互的物品和内容、NPC的出生死亡等，整个过程都可以动态调节，这也是沙盒游戏的一个核心点，你可以通过系统化设计或者交互产生更多的玩法。它的前提条件是必须达到非常大的体量，量变产生质变，否则一定会比线性游戏差很多，因为线性游戏的设计感要求极强，玩家进入游戏之后成长、历练、交互等都会提前规划。

我们希望GPT可以接入NPC的思考层，让它更偏向于人的生理或逻辑思考。我觉得这是大语言模型的优势，我们写出的文案、现实规则等，交由LLM的语义识别去理解，然后去调动游戏内接口，产生可执行的行为，这点现在已经可以满足需求。

我们现在在做各种底层的AI元件，比如说行为单元等等，期望GPT的作用可以替代现有人工编写的行为树和驱动底层行为的思考逻辑。

如果能落地把LLM融合进游戏的话，我希望它可以做三件事情：

1. 第一是接管现在最上层的NPC思考层，NPC会根据自己所处的环境或者条件、和其他人的关系，来确定他优先做哪些事情。

2. 第二点和对话有关，我们还是会编一些事件，但是事件里的对话文本可以根据当前情况而动态输出，这样也可以增加代入感，玩家每次的体验都不一样。

3. 第三点是希望NPC能理解玩家输入的语义，并且能反映到执行层面，比如我跟NPC说我们俩关系很好，希望它去帮我去做一件什么事情，它理解了意思后就会自动执行它的行为层，这也是我觉得沙盒类游戏可以随意交互、破坏、打乱游戏节奏等条件下可以发挥的点。

由此也联想一下之前谈的元宇宙，我的理解它并不是所有人都在一个虚拟世界过第二人生，而是一个互联互通的平台，在这个平台之上有很多小世界，每个世界里的NPC都由AI控制，而世界的主角只有玩家一人。我们现在也在摸索，希望通过打造一个生动的武侠世界，里面所有的行为交互完全由玩家来决定，你可以不按照一般的套路去完成游戏，但也能在里面得到相应的乐趣。

成志

不知道这种NPC的智能决策发展到什么阶段了呢？大概有什么技术路径？

Rolan

我之前写的文章里提到一个AI NPC的三大模块，刚刚留白老师基本都提到了，对话肯定是希望的，但Speaker有一些潜在的技术坑，反而可能是比较难落地的点。

关于NPC的思考层，也就是Humanity模块，虽然很多人觉得思考和对话的设计单元是一起的，但实现上其实差很远，是两个不同模块，思考层反而比较合适去切入。

而且我觉得挺有意思的一个观察是，技术出身的人大部分先想到的都是Speaker或者描述文本，反而很多游戏设计出身的制作人，他们想到的都是去感知世界。有可能是在实际执行，尤其是做过设计之后，会感觉到难写的部分很多时候在于对游戏里各种状态的判定，NPC感知周围的环境，不管是天气、地理位置、心路历程等，然后再总结出下一步的行为，这是一个映射关系，跟对话无关，很多游戏出身的人觉得这一块才是最有价值的。

很多游戏尤其是开放世界和沙盒游戏里都会要去堆料，而光堆料是没用的，关键是这些料能够涌现其他的互动，最近的博德之门3和塞尔达都是典型代表，当物理和元素规则能够普适地与堆叠的料产生互动，才能产生所谓的涌现。

这一块实际上做的时候，最大的工程量在于如何写从料到反应结果的演化过程，而AI就有可能赋能这个Evolver模块。什么东西、在什么情况下、被谁、做了什么事、会发生什么，这样的映射过程要考虑的内容是很海量的。而如果料不够多，传统的规则系统已经几乎可以cover了。

刚才提的Humanity思考层和这个本质上是一样的，以前的NPC因为受限于技术、人力，游戏本身的属性也是线性叙事，NPC不需要很强的实时性思考和感知，follow既定的演出表现路线（也就是脚本）就好。但如果真的要做一个沙盒，那Humanity和Evolver在技术目标上是等质的，都是为了模拟从什么场景输入，感知到什么、到可能会发生什么这样一个过程。

胶水

我们现在对原生游戏没有固定确切的定义，讨论的重点在于AI能带来什么新的游戏形式。

目前人工智能生成的总体还是比较薄的系统，如果涉及复杂系统，大模型现在能力很难让人满意。

如果把玩法的规则也当成游戏内容的一部分，比如塞尔达，我在想这个事情会不会变成玩法和规则上降本增效的逻辑？我这么提问的缘由会在于眼下甚至未来一段时间通用大语言模型可能无法实时生成复杂内容，必须要依赖一层人工验证，这背后的逻辑是因为即便像GPT4这种世界模型，虽然在常识、数学等方面表现不错，但在推理上仍旧会有原始数据分布导致的偏好问题，导致它没有办法去分析复杂系统和内部的规则。

而复杂系统，尤其是游戏，我们对它在状态转移中的运作方式预期是一种偏好，而不是事实。什么能给你惊喜，什么能让你玩得舒服，都是偏好数据，目前是依赖策划人为调制的。所以短期内实时生成复杂内容我感觉做不太到。现在看到比如斯坦福小镇里有角色可以去闲聊，但只是看起来fancy，其实一点都不好玩。

AI想在玩法中落地主要遇到的困难

成志

现在的半人工智能其实还挺吃力不讨好的，从管线角度，策划跟AI之间的配合会比较麻烦吗？另一方面，算力成本在实践中是什么样的呢？

Rolan

严格来说不存在纯粹AI控制，尤其是我们现在讨论的LLM而不是强化。本质的原因在于大语言模型在做NPC上，它只是一个心智模型的模拟者和对话系统，但是最终都要映射回你的资产空间，但游戏本身的表现不是语义的，Character AI不是一个游戏，因为游戏必然要有表现层、资产层，如果想把LLM放在游戏里作为一个功能模块，那它一定会存在两种系统、两种类型数据结构之间的接口点，为了适配这种结构点，做NPC模块的时候肯定有一些部分不属于LLM控制，这某种意义上算是一种理论层面的、不可逾越的边界。

从设计角度来说，哪怕再自由开放，肯定是有一条主线的，这是游戏设计的核心和锚点，它一定是明确可控的，在NPC上就表现为希望有什么功能维度，比如说它能做什么、是否有好感度系统、是否有主动跟其他NPC社交系统等类似很具体的设计点，策划们才能够去抓住这些功能，去进一步设计和其他系统的互动、规划玩家能体验到怎样的内容。

如果没有这些东西，就会变成在Glow或者Character AI里的体验，只能指望用户在随意的聊天中能碰撞出什么东西，这也是为什么我不太把这一类Chatbot叫做游戏，因为它并没有设计性。只要你希望去设计一些东西，它必然不可能让LLM接管所有事情，这里面甚至还没有考虑成本问题。

成志

在做设计的时候怎么去评估一个NPC，比如对话质量的好坏，以及所谓的节目效果是否要刻意为之呢？该怎么考虑这种听起来有点失控的东西？

留白

每一个设计师都不希望游戏是失控的，对于一个庞杂的系统，它里面涉及的元素太多了，这也是我觉得LLM可以赋能设计的最重要原因，相当于有一个助手程序，它能帮你解决很多不符合逻辑的事件和行为。博德之门是依靠多年时间、很多人去填充各种细节而设计出来的，并不是由bug产生的。

各种语言模型我都有尝试，之所以我觉得这次比较有意思，是因为你输入信息后，你可以感觉到AI在像人一般思考，我们是否可以利用这一点，在游戏设计中为AI接口去做符合人的逻辑的定义的元素，或者说记忆。

比如NPC的好感度系统，它背后是有数值的，如果用语言或者说定义让NPC更拟人地去理解数值后，再输出结果交给下一层级去执行，这样是否更加可靠和可落地？

AI去生成整个逻辑或者表现层显然不太现实，但让它分段执行任务，根据接受的信息调用符合逻辑的输出结果，至于说做到像真人一样的智能，可能还需要好几年的迭代。

Rolan

类似我刚才提到的，你需要留一些设计锚点，在数据结构上类似于字段，这些数据结构就是NPC的内核，可以理解为Inner space，它可以隔离NPC的对外以及内在，也就是用LLM赋能的一部分的中间层，这个中间层可能就是你刚才提的用去辅助设计的东西，这个肯定是可以做的。

现在主流的做法可能也在关注应该怎么设置中间层，设置得越细，承载的功能和表现会更复杂，同时LLM终究是一个开放式、发散的模型，你越要约束它，在实现层面成本就会越高，越可能不如用行为树，类似我在AI不可能三角里提到的问题。这种做法本身是很合理的，也是可以去尝试的一个点，至于能不能实际提供你想要的功能，那就是另外一个case，会回到堆料和合理性验证方面。

成志

目前在对话层面，让NPC做到像人一样的难度在哪？

郑叔亮

回归大语言模型的起点，它到底解决的是什么问题？

在大语言模型流行之前，我们做了很多年的对话系统，用相对传统的AI技术，或者说浅层神经网络，来解决人机对话当中的问题，希望Chatbot能像人一样平滑地跟用户进行多轮对话，当时能实现五轮或者十轮的对话已经是很有挑战的事情。

直到后来大语言模型，比如GPT2出来后，逐渐让我们看到大语言模型能够在很大程度去解决传统神经网络所遇到的关键问题，比如短时记忆、知识引用等。在对话时AI不会犯上句不接下句、或者一些基本的逻辑问题、语法问题等。到今年GPT火出圈的这段时间，它解决的更多还是基础语言层面的问题，说白了就是让AI说话怎么像正常人一样。

其实各位老师提了很多在游戏设计上的挑战跟诉求，我觉得可能对于LLM的期待有点过高了，特别是语言模型的逻辑能力方面，帮助设计游戏的框架或者串联游戏的关键环节，对于LLM来说是非常有挑战的事情。

GPT4是目前全球范围内能力最强的大语言模型，也是参数量最大的可商用模型，他学习了很多COT或者逻辑推理的数据，通过策略组织的方式，让模型能够在一定程度推演问题，现在也有一些Agent的解决方案，在沙盒游戏当中，比如我的世界，通过设计一套策略让AI去感知周围的环境，包括打怪、采集资源、生存，相比于人类，这些还是非常初期的逻辑能力。LLM的下一步一定是提高通用逻辑能力，要处理的更好更深，并且能够建立独立的思考，具有长期记忆能力。

很多时候LLM的发展脉络不同于我们人类智能增长，他是先学会说话或者最基本的表达，但这其实是一种概率推理的方式，本质上并没有独立的思维。

我们也在做拟人大模型，去年我们发布了AI乌托邦产品，对标Character AI，但里面的角色并不会真正去思考，也不会主动记忆用户输入的信息，它下一步的发展一定是把深层次的思考能力，类似人类大脑前额叶区域，逐渐的构建起来。它的基础是巨量的数据以及算力、更好更新的模型架构支持。

所以拟人也是有一个步骤，第一步先模拟人说话，第二步在对话的过程当中，让AI智能体去理解人的情绪或者话外音，给予人类对于情绪的反馈，这是一个连接和调频的过程，能够让对话体验更加平滑。但是从根本上讲，它还是一个学说话的过程，只不过技巧会更加丰富、见到的情绪化内容会更多，因此对于人类的情绪能有一定的理解、

再往后一步需要LLM真正地去理解世界，包括我赋予它一定的人设、相关的角色和关系，都需要通过模型清晰、恰当地表达出来，这又是一个更高的挑战，需要都逻辑思考能力和架构设计能力。现在很多文字交互式游戏，比如海龟汤，更多利用的是Code Interpreter能力，通过半结构化的脚本做仿真执行，本质上并不是LLM自发的去构建。

我非常同意不管是做游戏还是做复杂的具有世界观的应用、不管是虚拟世界还是真人世界，人类设计师一定会占到主导作用。

我们做大语言模型会尽可能按照刚才的节奏逐步推进，今年年初的时候我们也开始尝试去交付智能NPC给游戏工作室，可以把一些世界观的设定应用到角色的创建中，同时做一些场外的小游戏或者营销推广的活动。

不过对于当时的大语言模型来说，想要不OOC也是非常难的，没有特别成功的NPC交互案例，反倒如果退而求其次用语言模型做交互式文本创作，比如我和创作者都设定好了角色，一起去写一些可交互剧本，后续策划和编辑进一步去润色筛选，这是比较能够落地的。

至于真正的做NPC拟人化，我认为游戏是一个非常有挑战、严肃、有难度的场景，LLM必须去设计很多外围的东西，比如工程化内容、辅助模型、Agent架构等，去帮助游戏实现目标，单靠语言模型本身还没有相应的能力。

拟人化是一个很有挑战性、但也很重要的方向，但总体是未来可期的，最近几个月也在快速进步，把很多关联的问题克服掉后，我相信能够在更多的场景下实现落地。

AI+Gameplay的实际落地探索

成志

现阶段也出现了不少有意思的AI小型作品，接下来请志翔谈谈他在项目中是怎么运用AI技术让玩家体验更好的。

黄志翔

我之前用AI结合做过两种不同方向的游戏，一个是纯粹让AI做美术和参考工作，一个是用LLM接到游戏里去产生内容让玩家去玩。

最后发现，用AI生成美术素材、为开发加速的游戏，玩家反馈非常好，反而深度接入LLM的看起来不像个游戏，比如用LLM生成NPC对话，如果没有经过精心的叙事设计和配套的美术资产，玩起来跟一个文字游戏其实差别不大，而且玩家还要受到各种程序上的制约，交互形式也有限，那为什么不直接去跟Chatbot聊天呢，这也是我觉得LLM游戏应用的一个误区。

反而是我之前玩GTA的时候，每次重启任务NPC都会说出一些不一样的话，把这种锦上添花的事情交给AI做，既不太会出现不可控的情况，而且可以减少重复感。

第二点是太依赖于AI不一定可以降本增效，反而让开发时间更长了。比如说我在做《玩具帝国》时想画一个诸葛连弩，而大模型里面没有素材导致我还得去找参考炼丹，中间花的时间还不如我直接画出来。还有一点在于，AI是能产生大量素材填充游戏内容，但这不一定会让游戏变得有趣，反而会更像一个罐头。

AI应用到游戏里面更多应该考虑的是怎么让玩家玩得爽，之前OpenAI的星际项目、Alpha Go下围棋等突出的是AI能力，而我当时的设计是在RTS游戏中，玩家可能会有不同的战术战队，我想让AI在玩家看起来动作是想偷家的时候，故意让他能成功偷家，或者玩家布下了口袋阵后刚好让敌人能进到口袋阵，让玩家打出爽感，这种情况下AI会更像一个会琢磨玩家心理的人。

再比如我的游戏有些机制比较复杂，需要做很长的新手引导，但如果我的战术很多，我不可能每一种战术都做出来让玩家学习，而这时比如我想教玩家一个偷家战术，我可以让AI在某几条路上大军压境压过去，当玩家两条路都打不过去时自然会尝试从另一条路去偷并发现这种方案能成功，不知不觉就学会了偷家，这种方式下不仅让玩家打起来很爽，也可以提高粘性。

再举个例子，一些事件驱动型的游戏，比如欧陆风云里最有意思的就是各种各样的事件，如果我用明朝打赢了土木堡之战，蹦出来相关事件我就觉得特别爽，但我之前试过跟AI聊一些历史上可能发生转折的事，我感觉他聊出来完全不在点子上，会出现不符合事件发展或者背景人设完全变掉的情况，虽然可能比较符合逻辑规范，但缺少让玩家觉得很爽的爆点。

AI堆料固然可以一下子生成很多不一样的事件，但还难以琢磨玩家想要的是什么，直接用LLM生成容易让玩家感到疲劳，不如手动设计一些真正好的事件。总结就是AI作为陪玩，可能比单纯生成资产更有意思。

成志

面对技术选型问题，固然可以用AI驱动，但有时候真的有必要用AI吗？

黄志翔

我之前试着用GPT做长文本交谈的，但发现它越聊到后面就越不可控，比如海龟汤，如果能增加它的可控性我觉得是挺好的尝试，因为设计者可能很难考虑全玩家尝试的内容，反而交给AI更合适。

Rolan

你之前提到的问题从技术底层来说是两个原因，第一，历史相关话题的认知跟幻觉有比较大关系，主要是模型对自己的知识还没这么有信心，因为幻觉本质上在算法层面来说，一般是Counter Fact能力的缺失，其实是神经网络层面的问题，不是到了大模型才会有。

所有神经网络都会有这个问题，即它不知道自己知不知道，一般来说，你不在Prompt或对齐阶段里面强行做安全性的控制，其实很难根治，是一个不断去对细节的过程，不止大语言模型这个时代，以前我们做AI很多时候都是在处理这个问题，细节技术、数据迭代等都是为了让幻觉越来越少，但是不可能消除。

第二，在用ChatGPT或Character AI去玩跑团的时候，有时候会出现跑题或者剧情歪掉的情况，这就是为什么我会说设计得有一个主心骨。如果没有专门去做主线设计，大模型天然就是会发散的，它不像人类有天然的逻辑主线和认知架构的，除非在Prompt层面或者做一个Storyteller Agent的架构层面去显式地控制它，否则是很容易跑偏的，这种体验就离不开设计师在体验层面做更多努力。

黄志翔

是不是目前对于独立游戏或者个人开发者来说，想用LLM做类似海龟汤之类比较长的一些文本交互内容还是有比较大的困难？

Rolan

取决于怎么理解困难吧，在我看来是可做的，也有人在做了，但是它做的过程不是一蹴而就的，肯定需要不断碰撞做设计，不断尝试设计原型、设计架构，不断调整限制条件和上下文逻辑，所以它的难度不在于技术本身行不行，而是在于设计层面的推进。

成志

目前技术方面主要在研究些什么呢？你们会期待业界去做什么样的探索？

胶水

我们最近在做AI伙伴相关的内容，严格来说更像个对话产品。在落地遇到问题时需要去做一些设计，LLM现在还不是一个足够通用的世界模型，你可以从参数进行一系列限制，比如说上下文长度，你可以把它类比成内存，我们做AI的时候大部分是去用它的推理能力，而推理能力会有计算错误率，使得它跟以前的程序计算有非常大的区别，它会有一定概率出错。比如GPT4的有8K的上下文长度，但并不意味着都能拿来做推理，当上下文超过1000个token时推理就会有小概率开始出错。

在这个前提下，你并没有办法把所有的想推理的任务跟信息丢进去，导致你必须要去做一些额外的系统，比如RAG、 TAG之类，需要把整个系统进行召回和拆分，这样又会涉及到一些外部系统来帮助LLM按照事实做出比较好的推理结果，所以最后问题就回到了你要先有某个需求场景，根据这个需求场景其实是一套专家设计，后续的评价和反馈数据也是针对这个需求场景进行。

清华前段时间发了一篇论文《Agent Bench》，跟我们实际的体验非常相似，虽然GPT4非常贵，导致你一开始会想尽办法不去用它，但当你去做推理任务的时候，尽管会有Llama2以及其他开源模型在部分指标上看起来更好，但实际应用构建最终结果上看没有GPT4始终是不行的。

Rolan

关于技术层面可以做的事情，其实有很多是比较具体的LLM的落地，尤其是偏工程侧，我这边说一些偏功能侧的东西，我认为很多创业者或者大厂试验性项目的同学已经有这个感知了，当把LLM运用到具体项目的时候，最明显的问题就是如何让大语言模型去懂你这个项目。

现在我们看到很多，比如说论文《Generative Agent》，它没有任何背景或只是个常识场景，GPT3.5甚至一些国产大模型其实都能cover大部分内容。或者是很火的游戏，Jim Fan的论文《Voyager》在MC上用GPT4和3.5一起做的，核心原因是MC已经有相当多的信息已经在GPT的训练语料里面。

而当我们实际去跑的时候，会遇到两类问题，但核心本质上都是一样的，第一，如果游戏本身需要AI去做一些简单推理（复杂推理确实我们不会期待），游戏设计师们很希望有一个所谓的常识引擎，而这一波大模型比起复杂推理，他们更兴奋的一个点正是因为有了常识引擎。但如果项目场景，尤其世界观设定比较特别时，常识引擎不管是用来生成对话、文案辅助、甚至只是效率工具，都有可能因为架空而导致严重的幻觉，非常影响实际效果，这是我们在项目端落地AI功能时，一个需要亟需解决的技术层面问题。

另一个方面是在玩法端，比如刚才提到NPC的内在建模、环境规则演化的建模，目前不是所有的模型都很擅长这方面，GPT4虽然已经能够模拟大部分，但实际用的时候仍会出现不可控的情况，做线上功能的时候，我们对预期的输出是几乎零容忍的，但GPT天然有助人情结，在实际使用当中经常跳出人设，以及GPT自带的安全协议等问题，会让它屏蔽掉很多场景是的输出。

以上本质上都是如何去去获得一个懂你项目，不管是玩法设计还是世界观等的LLM，游戏项目，尤其是在研项目，本身都是很specific的存在，必然是比较特殊和离群点的存在，然而LLM是世界模型，它一定是比较中心化的东西，这里会存在对齐问题。所以如何去把一个大模型对齐到自己项目的过程，就已经足够我们这些AI组吃一壶的了。

不管你底下用什么技术栈，其实都是为了这个功能目的，而这会直接影响AI能力的完整性、易用性、以及成本。

只有当AI足够懂你项目的时候，很多成本，不管是部署成本、算力成本、还是使用时人的心理和复杂程度的成本才会整个下降，才能够真正意义上成为一个管线级别的工具，虽然不确定一年之内能不能搞定，但我认为它正在发展中。

观众

LLM驱动VTuber是一个可行的方向吗？

Rolan

已经是有了，像Neuro Sama已经是古早的存在了，但其实大部分时候它不值得上资源，最后能够做到头部Top3才可能有资源。这个比较偏具体的产品领域，属于商业素质问题。

如果时间放到五年，我个人觉得是有希望的，但不是以商业层面的数据为依据，我觉得这一块有很多东西没挖，核心原因是VTuber本身这个业态比较吃力不讨好，哪怕上真人也好，其实都很卷，而且真人VTuber会有很多其他配套的东西，这些配套目前在AI VTuber上基本没有看到，目前走得相对比较前的是米哈游的鹿鸣。

如果把很多其他的运营、渠道等方面算进去，智能化应该是比现在所看到的情况还要大的，所以如果拉到五年的时长，我认为不仅是AI技术层面的功能，还有产品设计层面的功能等很多东西没做，至于说最后ROI能否打平也不好说。

注：以上内容仅代表嘉宾个人观点，不形成任何普适性结论