复旦博士COSER牵头,蔡浩宇AI团队的最新研究给我整笑了

昨天 13:588 浏览综合
TapTap
让AI过家家,很有必要。
文/以撒
自蔡浩宇创办AI公司Anuttacon以来,这支团队的动态一直不少。
从去年8月上线的游戏《Whispers from the Star》、年底推出的AI聊天软件AnuNeko,到今年4月的首个视频模型LPM 1.0等等成果,Anuttacon在方方面面都有涉及。速度和打击面上,都真的挺有AI公司的风范了。
就在前一阵,葡萄君发现Anuttacon还在Arxiv上发布了一篇论文,讲了讲他们最新的研究成果之一:模拟多智能体社会系统Agentopia。
TapTap
这篇论文作者栏第一位的王鑫涛,一看就是个年轻人。他在GitHub上发布了Agentopia项目的源代码与说明;他的主页,则列出了自己的情况——复旦大学博士,主要研究自然语言处理、角色扮演AI等方向,喜欢ACG文化,还在漫展上出过钟离的COS……
TapTap
TapTap
TapTap
图源作者主页及X
简单来说,这支研究团队搭了一个AI社会,让100个各种各样的智能体,在里面生活了10个模拟年,观察其中的社会现象与反应,并借此优化大模型的角色扮演能力。
TapTap
看完论文,我真的笑了——当然了,论文本身的框架和内容都很严谨,但里面提到的一些案例、细节,包括这个项目本身的想法和研究过程,是真的有意思。
01
2026年了,AI小镇还能怎么玩?
说到AI小镇,大伙应该都不陌生吧?之前著名的斯坦福虚拟小镇(Generative Agents),可以说启发了一大批类似的项目,也让很多人第一次意识到AI有多好玩。
TapTap
但不少AI小镇项目仍然有局限性。核心在于:大部分项目通常只模拟几天时间,而且往往会把大量算力花在基础操作上——把一个东西搬过来拿过去这种。这种设计形式,就很难让智能体真正过日子,发展社会关系、职业规划和个人成长。
所以Agentopia的研究团队就想了个办法:他们定义了一种生活奖励,用来映射人类的幸福感;在这个奖励分的引导之下,每个智能体会尽可能去追求自己的美好生活。
TapTap
举个例子:你看重的人也看重你,你的社交得分就会变高;没人喜欢你或尊重你,你的得分就会减少。每个智能体每周会规划行程、联络朋友、执行活动,一周结束后复盘经历,每过完一年还能根据奖励更新属性、升职加薪。
有了抽象的运行规则之后,团队构建了三个虚拟场景供智能体生活——合租公寓、魔法学院和中国高中。在100个智能体生活的这10年里,这个小社会里发生了五花八门的涌现式事件:悄悄话、送礼、过劳崩溃、学术合作、激情与工资的抉择……而背后数据呈现的一些现象,看起来也都特别真实。
TapTap
有人能认出这张图里的角色都是谁吗?
比如在社交方面,你能明显看到,有的智能体是典型的老好人——公寓场景的27岁软件工程师Leo,10年来每年都被20个人喜欢,几乎是小镇的社交中心。但也正因为他把精力分散给了太多人,导致自己没有特别深厚的关系,总体社交奖励下降了41%;
TapTap
TapTap
向左滑动查看中文机翻
对比起来,另一个叫Jun的高中女生,虽然只有5个朋友,关系却发展得特别深,反而获得了更高的社交满足感。甚至和一位朋友有过99次图书馆碰面、44次辅导课的经历,真是亲闺蜜吧……
Jun这个角色很有意思:早期的她,其实是高中里不折不扣的社交狂魔,参与过402次的联合活动。但代价就是,她的活力值一路从70崩到了0——论文直接管这个现象叫「Emotional labor burnout」。结果在和咨询师谈话之后,她才开始主动取消大量泛泛社交,转向少数深度关系。
顺带一提,从官方示意图来看,标注Emotion Burnout的角色形象,很像《原神》里的雷电将军。在游戏中,虽然雷电将军(或者说影)不怎么参加社交活动,但她的朋友确实屈指可数……不知道在设计人设时,研究者是不是有所参考。
TapTap
TapTap
TapTap
向左滑动查看中文机翻
在性格演变方面,你能完整观测到一些智能体的成长和变化——高中场景里有个叫Linyu的女生,原本有严重的社恐,但经过长达9年、共57次的心理辅导,加上绘画练习和缓慢的社交暴露后,她的自信属性暴涨了50点,内向下降了30点,完成了一次非常巨大的个人蜕变。
TapTap
TapTap
向左滑动查看中文机翻
甚至在更宏大的社会经济层面,你也能看出一些头绪——在虚拟世界里,因为没有投资增值、雇佣剥削等财富滚雪球机制,大家的基尼系数(贫富差距)缩小了;
但与此同时,在阶层固化热力图里却能看到:排在顶部25%的富裕阶层,到了第二年依然留在顶部的概率高达72%~79%;而底部25%留在底部的概率也同样高。这说明在AI社会里,虽然贫富绝对差距在缩小,但连AI也很难跨越固化的阶层。
TapTap
在这个背景下,很多角色也做出了有趣的抉择。比如公寓场景的Sebastian,他主动辞掉高薪工作,降了一半薪水转行去做攀岩教练,情绪值一下从43暴涨到了97。但也没因此就飘了——他相当理智地存了6年钱,直到第七年各项指标(活力值、存款)证明新生活已经完全步入正轨后,才开始放开手脚去享受物质生活。
TapTap
TapTap
向左滑动查看中文机翻
像这样的研究项目,最有意思的地方就在于这一点:这些现象和变化,都是没有预设脚本,纯靠底层设计、AI交互涌现出来的现象。
02
让AI过家家,很有必要
有朋友可能会好奇,到现在还研究AI小镇,到底有什么用?
这个话题其实可以说很多,不过在Agentopia这个项目里,研究的目的总结起来就一句话:让AI更有人味儿。
TapTap
这张示意图中也出现了大量《原神》角色
目前很多AI大模型、AI伴侣或NPC想要有人味儿,背后都得靠投喂大量的人类对话数据来微调。而现在摆在面前的问题有两个:一是高质量的人类数据快要被榨干净了,而且人工标注又贵又难规模化;二是仅仅学人类说话,AI可能还学不会思考与抉择。
Agentopia的研究方向,就是通过抽象系统、奖惩机制,让AI自己在生活中模拟,再尝试借此让AI更进一步:在模拟过一轮之后,他们提取了前25%进步最大的智能体的高质量数据,喂给底层大模型(Qwen3.5-397B-A17B)重新微调训练。
TapTap
TapTap
向左滑动查看中文机翻
结果就是,新一代智能体回到虚拟小镇里,变化非常明显:受尊重程度提升了24.2%,被喜欢程度提升了15.9%,甚至各项主观幸福感都全面上涨,唯独物质满足感暴跌了14.8%——因为他们也发现,大手大脚花钱一时爽,年底算账就惨了。
这波啊,这波是AI无师自通了延迟满足和抗风险思维……
更重要的是,这种训练效果,并不会局限在Agentopia这个小镇里——团队把训练后的大模型拉到外部测试,发现经过社会生活的AI,拟人化程度上升了23.7%,角色忠诚度上升了16.4%,总成绩甚至超越了Claude-4.5-Sonnet。
TapTap
TapTap
向左滑动查看中文机翻
这样的变化,就暗示了一个方向:不靠人喂数据,用模拟社会的经验来训练角色,其实也可以提升智能体的拟人化水平。
03
结语
当然,即使有这么多有意思的细节,也不代表Agentopia能一下子催生个什么大项目出来。论文里自己也承认了:这个项目目前还无法模拟人类的实时感知和反应,依然存在AI幻觉。
其次,由于在整个模拟中,角色、世界和评分全部由 Qwen 驱动,运动员和裁判都是一个大模型,AI 不可避免地陷入了一些封闭的循环。所有的角色在 10 年的模拟之后都展现出了一些一致的变化,比如都变得更愿意参与公共活动,更看重被人喜爱和尊重,更不喜欢独处。
除此之外,团队也有一个很清醒的自省:Agentopia本质上是个智能体社会,智能体收到的所有反馈都来自其他AI模型,这跟人类现实交互还有太大的差距。所以这些训练后的大模型,能不能真的对齐人类的认知和心理模式,仍然是一个悬而未决的问题。
但很明显,这个研究方向,还是紧紧贴着米哈游和蔡浩宇团队的终极愿景——打造一个足够酷的虚拟世界。在这个大目标下,结合AI研究强化角色扮演、拟人性和交互体验,一定是最优先的探索方向之一。
TapTap
TapTap
1