世界观察:“别再尬吹AI能降本增效了”
00
(相关资料图)
前言
降本增效:AI会取代原画吗?美术已节省xx人天
xx游戏:怀疑使用AI,玩家声讨、厂商道歉
xx公司官宣推出大模型,融资xx万美金
万字长文解析:英伟达又搓出什么新核弹
......
在过去的200多天,也许你已然对这些标题麻木无感、甚至有些PTSD,但依然会有种不真切的迷离感——怎么AI又火了,这是下一个元宇宙/Web3吗?游戏难道因此更好做、更好玩了吗?
抱着如上疑惑,作为专注游戏行业的投资人,秉持着好奇与求真的态度,笔者走访了海内外游戏开发者、AI研究员、AI创业公司,一路能听到关于“AI游戏”至少10种不同的定义(堪比20~21年人均“二次元”的盛况)。为了促进跨界交流,共同探索“AI游戏”究竟是什么,也曾在22年12月举办过AIGC主题的Game Jam。
结合研究与实践,希望在这个信息过载的时刻,能为行业分享些接地气儿的观察、提供更AI原生的游戏思考和脑洞,少一些无谓的FOMO——毕竟,无论技术如何迭代,游戏好玩才是硬道理,审美好、懂设计、懂开发的游戏人总是稀缺的。
01
旧话题里的新鲜事
开源生态、二次元同人文化、开发者与创作者共创,促成生成式AI在创作圈的繁荣。游戏,作为视听交互的集大成者、也是变现效率极高的产品形态,同时有相对更温和的包容度,其土壤天然适合生成式AI的探索。
以图像生成为例,时间拨转回2022年8月,Stable Diffusion方才问世,开源之火就迅速点燃了创作者的好奇心。在随后的10月,NovelAI推出基于Stable Diffusion和530万张Danbooru图像训练的文生图模型,数日内蹿红,但很快被意外破解。
彼时,互联网大江南北都流转着Vtuber区UP主秋葉aaaki的本地部署教程,同期《元素法典(1)(1)(2).pdf》也传遍了大大小小的社群。或许最初这都不过是图一乐,但在一票ACG相关创作者的努力下,文生图/图生图又更上一层楼——曾开发出Waifu生成器的Spellbrush联合Midjourney推出专注美少女的Niji Journey,年轻牌佬、YGOPro2作者鼓捣出ControlNet。
有趣的是,这轮生成式AI的主要传火者并不在曾经设想的工业界、机器人,而是创作领域,尤其在二次元同人圈。毕竟,相较于管线更成熟、容错率低的工业需求,同人创作拥有相对更好的包容度、也有更浓的幻想和创作欲。
于是,擅长整活儿、常年混迹社区的爱好者纷纷转型炼丹师,眼下B站首页不乏“AI角色唱歌”、“AI小草神舞蹈”;在HuggingFace的开源生态里,也有不少老二次元工程师贡献项目模型。
万众瞩目的Character.AI,ACG类角色的调用量远超其余类型——毕竟能跟屑狐狸聊天,能获得5t5陪伴,为什么不放飞下自我呢?这波,二次元上大分,社区文化大胜利
而在所有的文娱创作中,游戏,无疑是视听交互的集大成者、也聚集相当多创作和技术人才,且F2P网游的商业模式又早已被确立,因此被众多从业者关注,各界多有“游戏是AIGC落地的第一站”的观点。
不过,在生成式AI浪潮来临前,游戏+AI本身也算不得什么新鲜事。从NPC/怪物决策讲,最普遍的无非行为树、有限状态机,也有较难设计、不甚常用的GOAP;生产流程上,不乏AI减面、自动展UV、网文生成器等工具;回到传统的强化学习,虽限于少数重度PvP、三消等场景,但也较为成熟;即便跳出AI,诸如Houndini+SD等程序化生成工具,使用率即便较低,但也有点年头。那如今燥热的「生成式AI」究竟有什么新活儿?
回归「生成式AI」的发展,已有相当多科普梳理,在此不再赘述。一言以蔽之,自此不需要再为特定任务做专项训练、也无需像传统NLP得先拆分子任务。通才大模型在少量Prompt指令下,能结合上下文学习,可胜任相当多生成性工作,而不只是曾经简单的翻译理解(AutoGPT甚至可以帮你写Prompt,长期来看,Prompt也可能只是指令交互的过渡媒介)。
同时,在有点儿「暴力美学」的缩放法则(Scaling Law)加持下,高质量数据和大量参数可以涌现出推理能力,如果加入其他模态的数据,还能相互转换,甚至上半年的GPT-4、微软KOSMOS-1还能读懂梗图。
就着“生成”和“推理”两大关键能力,也衍生出了「降本增效」的AIGC工具派和「原生体验」的AIGC游戏派。
对于「降本增效」而言,抛开上市公司喊话大模型的市值管理行为,工具确实有一定效果,但当前仍无法满足对可控性和容错率的高要求。而对比以往“渠道迭代、产品质量为王、小团队自研自发成为可能”等行业价值链的结构性变化,目前的生成式AI尚且还没有清晰的“颠覆”路径。
此外,游戏趣味和盈利能力也并不与投入资本的多寡呈线性的正相关——巨制会翻车、小品也能爆。如果不谈如何创造新体验,只聚焦工具提效,可能不免就会陷入“不过是将14人天的立绘设计缩短到10人天,将0.5人天的绑骨骼缩短到0.2人天,但还是不符合卖点、玩家觉得不如《O神》”的窘境。
因此,在混沌之初,更值得探讨的还是“AI原生游戏会长什么样”,能否为玩家带来新乐子,或者提供新的变现模式——毕竟,游戏体验永远是内核,作品不够好玩,玩家不愿买账,聊再多“降本增效”也无济于事。
02
原生体验
AI原生游戏,有两种截然不同的路径——第一种是纯粹的游戏思维,即选择有相似思想的原型,先做个好玩的游戏,将AI视作锦上添花和乐趣延伸;第二种则是游戏化的互联网产品思维,即用“游戏化”包装泛娱乐需求,追求传播和增长裂变,AI扮演提供乐子的工具。
聊起游戏本身,也有人听到AI创新后眼前一亮,仿佛无限关卡近在眼前,再搞个UGC编辑器,岂不就是游戏永动机——赢麻了。
但很遗憾,后文将说明AI原生游戏并不等同于无限生成内容的策划机器人,更不是搞个更简易的编辑器让玩家代工。在这里,笔者先提出一种思想——AI原生游戏将发生从“设计师创造乐趣”到“玩家自主创造乐趣”的范式转换,即广义上的UGC,AI原生游戏的趣味得由开发者、AI、玩家三者共创。
谈及游戏创新的范式,笔者粗略地先分出三种路径:①想到但做不到——通常卡在设计/技术;②做到但不够好——最为常见的微创新;③压根没想到——神来一笔/有时是品类级机会。
其中,第一点和第二点尚有讨论空间,即生成式AI的推理特性能否优化已有体验,拓宽其乐趣。但聊到第三点,就很难仅拿着概念来做无中生有的空想,即能以xxx-like命名的创新往往和机制、交互相关,得经历长时间推敲和验证才能成型,与技术更迭并无直接干系。故全新体验的确有可能出现,但暂不在本文讨论范畴中。
回到第二点“做到但不够好”,历来是业内最务实的话题,但要跨越这难关,对多数网游而言,最棘手的还不是去想那些凸显差异化的小设计,而是处理“内容产出速率低于玩家消耗速率”的窘境。只不过在普遍如此的当下,玩家和研发就“长草”和“坐牢”达成了一种微妙的相互妥协——但个中原因仅仅是内容少吗?仔细一想也不对。
为了能继续推进剧情/毕业喜欢的强力角色,即便痛骂一顿,还得回去反复刷材料
对于侧重局内体验的游戏,刺激长留和付费的往往是精雕细琢的高星角色、BOSS战、主线演出、一波三折的关卡,肯定不是量大管饱的填充物(此处点名看似无限的Roguelike副本、看似随机的日常任务)。哪怕储备了一系列高质量内容,也得讲究“物以稀为贵”,释放节奏要论疏密,不会一味地高强度更新——总不能每周一个新卡池等着被骂吧。
对于侧重局外养成的游戏,关卡/战斗又更多是验证养成的一道场景,爆出神兵、刷齐套装、凑足Build的数值反馈更重要,其留存内核显然也不是从多堆几关小怪能解决的。
因此,内容过速消耗的关键似乎并不在多寡。我们常常谈及的工业化产线也并不意指量大管饱,只是尽可能保质、保量、保时地产出版本,满足玩家对长期驱动力的追求。
从这个视角来看,AIGC能无限生成内容的幻想,除了强化学习在极少数MOBA/FPS的AI Bot、纯关卡驱动的三消、需要陪玩的菠菜有价值外,其余品类就总缺了点立足之处,还会陷入“算法人才难觅、数据集有限、训练成本高昂,不如招个资深策划”的ROI悖论。
笔者认为,更好的思路,可能是从“设计师创造乐趣”到“玩家自主创造乐趣”的范式转换——即广义而言的UGC,这其实与生成式AI天然契合。不过这里的UGC≠搞编辑器,不是去硬抄《蛋仔派对》《Roblox》,其实质是开发者设计好交互方式、规则机制和反馈逻辑,而将具体乐趣的创造放权给玩家。
最典型的例子就是麻将和乐高的思想。
麻将,也可代指一切优质的PvP游戏,在基础规则既定后,借助随机性和风险博弈,雀友的发挥决定了乐趣多寡。只要还能肝,赢家和输家都想无限地再开一把,且还自带传播性。
乐高,也可代指一切有沙盒创造属性的游戏,本质是以物理规则为支撑,定义了基础元件的连接方式,而无论是创造还是破坏都有其乐趣。同时,设计重点不在于玩具制造本身,而是如何提供合理的反馈,毕竟空有屠龙刀而无龙可屠就多少欠了点意思。不过一旦成型,千人千面,玩家总会找到独属自己的乐趣所在。
麻将:顶级UGC游戏,乐此不疲,无限重开
回到“User Generated Content/Fun”的思路本质,还是尽可能不依赖于开发者的内容更新。这也意味着妄图把压力转嫁给玩家靠UGC编辑器代工并不靠谱,其不过多了些玩家原生的策划,还得靠团队披沙沥金、得有足够DAU的池子里筛选。相对地,设计师提供积木、麻将这样的玩具更具性价比——
可以诱导玩家激发反复练习、自我超越的欲望,例如《忍者必须死3》竞技场的无尽跑道、《Neon White》同一地图在极限操作下的最速通关;或者支持自由创造、提供验证,例如《塞尔达传说:王国之泪》里结合究极手和左纳乌的“我爱发明”系列,文能神庙解谜、武可欺负呀哈哈,争相竞选弱智吧吧主;同理,还有自由选择、真实反馈的乐趣,也正是开放世界的本质,而非玩完即弃的一次性大地图。
一言以蔽之,AI原生游戏≠无限生成内容的策划机器人,≠搞个更简易的编辑器让玩家代工。
结合当下生成式AI的新能力,即推理、记忆、百科全书、自然语言交互、跨模态转换,但体感上还有些喜欢“一本正经地胡说八道”的大忽悠,放在玩家敏感度高、容错率低的场景大抵是吃力不讨好,但若能辅助设计师开发积木或麻将这样的UGC玩具,即在扎实的设计框架里,为玩家带来额外的新体验,未尝不可一试。
先且不论算力要求和工程难度,后文将以「叙事开放世界」「沙盒与模拟经营」「涌现与电子斗蛐蛐」「泛娱乐游戏化」四点为切口,列举部分相似思想的原型,并以「病毒式传播和玩家共创」为收束,抛砖引玉。
叙事开放世界
开放世界的本质是赋予玩家足够自由且有趣的体验选择,并给予真实的世界反馈,而非单纯超大地图、遍地走的NPC。借助LLM相对成熟的文本生成能力,也能有近似开放世界的体验。
有趣的是,每当有新技术试图来游戏分一杯羹,总有媒体喜欢把《荒野大镖客II》等AAA开放世界作品挂在嘴边,但若深究开放世界存在的合理性,绝非堆砌美术资产和任务罐头,而是创造有趣且可信的世界,赋予玩家自由选择的权利。对此,《塞尔达传说:荒野之息》选择了一套基于物理/化学引擎的实现手段,《杀手》《合金装备V》则选择了对同一任务目标提供多重解法。
这种将乐趣放权给玩家,能自由把玩的特性也对应了前文所述的UGC乐趣。联想到大模型,借助其有逻辑推理、上下文记忆的文本生成能力,也能实现近似的AVG+开放体验,但这不与美少女Galgame划等号。毕竟比起“游戏+叙事”的拼接,“游戏×叙事”的机制融合更有趣,即要让玩家“玩”故事,而非“看”演出,得参考诸如《史丹利的寓言》《奥伯拉丁的回归》的设计。
将二者思想融合后,Inkle工作室的网状叙事作品《Sorcery》《80 Days》《Overboard!》就值得参考,将情节分拆为状态单元/Storylet的模块化叙事结构与LLM有较大的联动可行性。
譬如在《Overboard!》中,玩家需要扮演一位谋杀富豪老公来骗取高额保金的女士,而在这艘封闭的邮轮上,其余5位NPC都或多或少有指证玩家谋杀的证据。没错,这次视角不再是侦探,流程也不局限于推理真相,而是想方设法地脱罪,有些像番剧《虚构推理》,全程靠一张嘴忽悠。
这款游戏的开放性就体现在自由的脱罪思路,且心流可能截然不同,你可以选择——
① 伪造证据,制造无头悬案
② 嫁祸某位NPC,找寻其间漏洞
③ 拉拢其余NPC,事成一起分赃
④ 干脆把NPC都作做掉,物理意义解决问题
⑤ 先跳预言家,开局就给警察致电混淆视听
⑥ 说不定还能找到皮划艇钥匙,提前开润(脑洞)
......
而这都收敛于一艘固定场景的邮轮,交互也仅靠对话和简单的道具,单局10~20min短平快的时长。麻雀虽小,五脏俱全,也正因其较高的自由度,配上合情合理的快速反馈,刺激不少玩家自愿重开,试图找到更完美的方案、或者更荒诞的解法。毕竟,侦探游戏最有趣的不是那一个个解谜机关,而是最终把线索归位复原真相,惊叹“哦!原来如此,我早该想到的!”的那一刻。
回顾《Overboard!》这样的一段小品级故事,研发周期也不过100天,看似门槛和成本都不高,但在传统开发工具下,想做到这般“主观感觉开放、实则收敛可控”的体验,工夫尽在诗外,非常依赖编剧的人工推敲,梳理关键线索、NPC状态。
Inkle叙事总监曾在GDC分享过另外款互动作品《Sorcery》的开发逻辑,采用少量状态树以达到足够自由度
但在LLM的驱动下,可以把推理交给神经网络,把选择自由权转到玩家,避免“策划绞尽脑汁想了100种方案,玩家只玩了2~3种”。对于独立团队而言,或许更迭题材和体验 (比如“末日/密室逃生”、“伪装间谍”,不必拘泥于推理),就能搞点新乐子。也许还能兜售调用LLM的次数,限制玩家无限试错、提供撤回操作的空间。
这种更契合Adventure本质的游戏还有些许参考,例如具有随机生成元素的策略RPG《漫野奇谭》也有异曲同工之妙。或者跳出电子游戏,曾经风靡欧美的Gamebook、无数童年回忆的《冒险小虎队》,其思想也有十足的开放性。
提及叙事和开放性,不少从业者还会想到AI跑团。笔者认为,的确值得一做,但生成式AI并不直接解决跑团小众的难题,当下依然是服务于核心群体,要想推广跑团乐趣得在设计上做简化。
毕竟跑团的本质,和“玩家自主创造乐趣/UGC”同理,是一种共同叙事。一段或荒诞、或温情的故事需要KP和PL共同完成——其中的随机Roll点只是实现手段,没有玩家为此赋予的意义,大成功大失败又能如何?
说到底,不同于更依赖剧本和DM带飞的剧本杀,跑团是小伙伴们一起编故事的游戏,得解放玩家的中二想象力,PL要不会玩,AI也帮不上忙。
制约跑团文化传播的一大原因,并非简单的组不齐车队,而是新人不会玩、担心玩不好的心理负担——这也侧面说明了,玩跑团和看跑团视频终有隔阂,视频的流行也难以直接把路人转化为玩家,毕竟前者是亲身参与、独有体验的调查员,后者是看客心态的观众。
照此逻辑,单纯由Stable Diffusion驱动的立绘/CG生成、GPT系列驱动的KP/PL对老手倒是增添了些许体验,但想让更多潜在玩家体验到跑团乐趣,得借助LLM在设计层面先循序渐进,提供充分的反馈。对此,售卖模组、按AI调用次数/时间的收费,也具备了一定的可行性。
题外话,一起编故事、乐子人等元素,搭载喜欢“胡说八道”的ChatGPT、再荒诞也能视觉化的Stable Diffusion,似乎《道诡异仙》还是个不错的切口,人人皆是坐忘道,就主打一个个的虚虚实实、真真假假。
《道诡异仙》坐忘道似乎是不错的选材参考,亦真亦假全靠玩家判断,增加输出的容错率
沙盒与模拟经营
拥有记忆、计划、反思能力的Generative Agents对NPC占比较重的扮演式模拟经营、控制类沙盒有较大帮助;同时,NPC不仅得鲜活,还需要设计师赋予其招募佣兵团/共同经营/恋爱后宫等意义,给予玩家自由把玩的目标。
作为RPG游戏不可或缺的一环,非敌方NPC往往承担了任务发布器和背景板的角色。尽管在多数游戏里,这些角色并不构成体验的关键支柱,但依然要费不少心思来设计,且多为一次性消耗内容,还有可能不会被玩家触发/认真对待。
不过,沿用“玩家自主创造乐趣”的思想,在生成式AI的技术加持下,更优的解法也许并非增加更多的NPC(当然也不会是僵硬地植入自由对话......),而是加强NPC、NPC之间的智能反馈,让玩家有更强的主观能动性,或组建一支神奇的佣兵团、或在复杂的国际环境执政(NPC也可能是一个个国家)、或挑战广开后宫(bushi)。
而这一切的实践基础,则是热门的斯坦福大学论文《Generative Agents》,不由得对其中栩栩如生的角色关系叹观止矣。相较于曾经靠人工BT/FSM来框定角色行为,论文里接入GPT3.5,装载了能提取记忆、计划、反思的Memory System,那NPC能据此先大致制定行为计划、并针对环境和其余NPC的变化做即时调整,来脱离纯粹由策划推理的困境。
如果说《Generative Agents》更像是个观赏性的技术DEMO,想必不少从业者也想到了复杂性和可玩性都更强的沙盒游戏。例如有异曲同工之妙的《矮人要塞》,控制七个性格各异的小矮人试图建造一个堡垒,尽管游戏ASCII古早的美术风格和极其硬核拟真的复杂难度(当然热衷于此的朋友会说“Losing is fun”) 劝退了不少看客,但都不妨碍其“醉酒猫”的MEME梗声名在外——
起因只是矮人在酒馆打架会碰倒酒杯,但结果是待在酒馆的猫醉了(要知道在设定里,猫是不会喝酒的),经过一番查询,原来是酒沫溅到了猫毛,而小猫喜欢舔自己的毛,这才导致了醉酒状态。尽管这更像是个意料之外的BUG,但或有趣、或荒诞的BUG所引发的蝴蝶效应又总能令玩家莞尔一笑,而背后的思想与Generative Agents有不少相似之处。
同理,《环世界》《僵尸毁灭工程》也有相似的设计脉络,如果能引入LLM,并用LangChain“魔改”,甚至扩展到MMO,让单机体验延伸到网游,在奇幻的背景设定下组建兵团,玩家自然而然就有更广阔的目标。
如果说以《矮人要塞》为代表的操控类沙盒作品上手门槛较高,那么以《星露谷物语》《集合啦!动物森友会》为代表的扮演式模拟经营能吸引更多休闲玩家入坑,这也是Generative Agents可落地的场景。
相信不少玩家在《星露谷物语》中期都查过NPC出没时间和地点的攻略,隔三差五地去聊天送礼,再等一个雨天去找老水手购买美人鱼吊坠,最终与喜爱的角色结婚(不限性别),每天看着对象为你烹调早餐、浇灌田地,没事儿还会来个拥抱。
如果用Generative Agents打造一个拥有长记忆体的NPC环境,也许这种小镇反馈会更丰满,而且内容可不局限于农闲生活和谈情说爱,甚至不局限人类智慧体——毕竟NPC≠人,既能是沉藏海底、不可名状的“鱼群”,也能是奇幻大陆的精灵海妖,满足玩家的“细分需求”。
涌现与电子斗蛐蛐
游戏领域的涌现是利用有限的规则组合,来构成丰富且有意义的反馈,但难就难在输出结果依然是体验可控。同样有涌现特性的生成式AI,在融合游戏性后,其本质是“电子斗蛐蛐”,满足玩家作为上帝视角Kill Time的乐趣。
在GPT-3异军突起,超越同期的BERT后,涌现一词就常常被研究者提起。作为从复杂学科诞生的概念,涌现尝试概括在宇宙、社会、生命等混沌中自发出现秩序的现象,例如天气转化、蚁群分工、免疫器官的构成背后都是由大量微观个体在一定规则下的宏观结果,其中最为知名的则是康威生命游戏,直观地演绎了数条规则下的丰富变种。
而这个源于自然的概念,经过些许简化后,也在游戏设计中得以体现——即利用有限的规则组合,来构成丰富且有意义的反馈,让玩家自由探索乐趣所在。对此,最广为人知的就是《塞尔达传说:荒野之息》,只用希卡石板的四个新手村能力,加上符合直觉的物理(重力/温度)反馈,足以让一团火有多种用途。
不过,涌现并非万灵药,复杂与有趣并非伴生关系。如今结合生成式AI来看,更重要的是可控涌现,即谨慎地设计基础规则、推敲机制间的组合,使得结果仍在设计师预见范围之内。的确,想优雅地完成绝非易事,但无需达到任天堂级别,只是汲取规则组合的思想,也能有不俗的创意。
譬如Sokpop工作室的《Simmiland》就是不错的学习对象。其体验像是上帝视角下的“电子斗蛐蛐”,玩家只需要在随机地图里决定打出「天气」「矿石」「植物」「生物」的卡片,就可以左右小世界的环境,观察小人NPC能搞出什么新花样。
千变万化的卡片组合,可能带领人类走向不同信仰的时代——也许是兴建教堂的宗教路线、生产房屋汽车的工业路线、还可能是手搓火箭的科技路线,一切都取决于玩家意志和规则组合。
相似的,Sokpop的另一款佳作《Stacklands》则是基于抽卡包、卡牌间组合的逻辑,也能让玩家自主创造一个世界,并伴随其文明的发展,其中货币产出与抽卡消耗的循环使得该作更耐玩,且为商业化提供了空间。还有独立游戏开发者On的代表作《生命之岛 GROW Island》,虽然是较为有限的排列组合,但精致的反馈也让作品颇具可玩性。
设想,如果将上述游戏的思想接入LLM,促使NPC学习对应规则,将卡片转换为Prompt,也许经由同样是涌现逻辑的神经网络,能赋予玩家创造更加丰富、且符合直觉的小世界吧。其中,卖卡包/卡组、撤回/增加额外变量就有一定可行性,究竟本质还是卖prompt和调用次数。
回到“电子斗蛐蛐”的设想,除了设置物理规则的互动,将涌现理解为个体与个体间互动所产生的社会现象也值得试试。这不禁让人梦回2018年的《太吾绘卷》,作为知名武侠开放世界RPG,茶余饭后的谈资却并非战斗功法,而是“复杂且有些荒诞”的NPC关系、和斗蛐蛐的副玩法。
有些反直觉的是,相较于过于强大的人工智能,有些荒诞的人工智障反倒让玩家有种看乐子的掌控感。早期的武侠和修仙独立游戏均没有复杂的AI,甚至还充斥着一堆BUG,表现上也只有单薄的文字,但纵观Steam热评、B站弹幕,不乏就着“剪不断、理还乱”即兴发挥的文豪,身处上帝视角的观察和脑补让玩家乐此不疲。
设想,如果NPC有更强的决策、记忆、推理能力,策划只需设计颇具看点的矛盾、背景,也许就能满足不少互联网闲人Kill Time、图一乐的需求。
泛娱乐游戏化
为了脱离与传统游戏之间的价值对比,AI原生游戏从包容度更高、敏感度较低的休闲玩家切入,可能会更快验证其循环的合理性。而游戏化改造的本质是赋予目标和反馈,支持玩家有趣的选择,并在商业化设计上做好价值塑造。
如果说跑团、沙盒、开放世界、模拟经营都是面向游戏玩家/Gamers,就不可避免会将生成式AI的作品与经典大作对比价值几何——抛开概念噱头,AI原生游戏本质还是游戏,内核要比肩《星露谷物语》本就不易。但如果放眼更休闲的非游戏玩家/Non-Game Players,游戏人的思维配合AI或许能有降维打击的奇效,更容易在短期内验证。
援引席德梅尔的名句“游戏是一系列有趣的选择”,只需要增加目标和反馈,为对话增加风险博弈,原本平淡无奇的NPC聊天也能变得有趣,而这也是Character.AI等对话式产品有游戏化改造空间的原因。
譬如独立游戏开发者大谷用GPT3.5开发了一个病娇性格的AI猫娘女友,支持语音对话。但更重要的是作者设计了一个“密室逃脱”的目标(这很病娇)。于是,玩家体验不再是像Character.AI那样的无目的闲聊,而是使出浑身解数,靠一张嘴尽快脱离“魔爪”。
这个DEMO也正是“玩家自主创造乐趣”的好例子。过去玩家能输入什么得靠设计师穷举,本质还是一次性消耗品。如今,这份推理负担转交给了GPT系列,在具备一定逻辑性的同时甚至还有些花活儿。那玩家体验的有趣与否相当看其创造力,设计师只需降低门槛、鼓励玩家——当然也得防范NSFW的情况。
GPT,你也玩《原神》!
如果担心调用LLM会有延迟问题,还可以在设定上选择同样有延迟反馈的设定来规避。例如曾席卷中文互联网的《旅行青蛙》,佛系放置的背后,为这种不确定性的旅行提供了合理性,反而让玩家期待“儿子”会带来怎样的照片。
再考虑到GPT系列尚且有些“一本正经的胡说八道”,这种似是而非、模糊套话的输出结果和具备巴纳姆效应的部分心理测评、塔罗牌、解梦、算命有天然的契合度,文本和图片的可解释性本质在用户自己手上。
或许这也能用Midjourney输出精致的塔罗牌卡面,经过针对性Fine-tuning的LLM对关键词做解析,再由设计师对主题、UI/UX交互做些包装,增加收集、装扮、社交等目标和反馈,亦是一款不错的泛娱乐游戏化产品。
如果再将变现效率纳入考量,海外《Chapters》《Episode》等可视化的视觉小说也和生成式AI有不错的相性——相信关注出海的朋友经常能刷到上述产品非常“Drama”的投放素材,直击北美16~45岁女性。
这种网文风作品的本质是情绪调动。其编辑深谙节奏疏密,平均1~3min就挑起冲突或高潮,哪怕角色和情节有些模板化,但架不住用户在Kill Time的时候还是吃这一套(相似的,抖音中AI有声漫画有异曲同工之妙)。
即便运营5+年之久,时间来到2022年,《Chapters》《Episode》依然在北美保持了2000~3000万美元的年流水,巅峰时期月流水也曾破千万美元。而不同于国内熟稔的Gacha模式,上述作品更擅长在调动好情绪后,在擦边桥段提供【付费选项】和【免费选项】,而在故事转折时戛然而止,提示得等待数小时或直接氪体力解锁后续章节。
尽管这种逼氪的手段也消耗了玩家的耐心,但对普罗大众而言,需求经久不衰。近年来包装为模拟约会的MeChat也杀出重围,站住了脚跟。且不难发现,新产品的xp也越发细分,而这种高度定制化、千人千面的需求正符合如NovelAI这样的生成式AI,而靠人工编剧就很难尽善尽美。
与其用生成式AI出图、配音、写文去复刻这类作品,不如借鉴其情绪调动、并为选项赋予高价值的思想,售卖附加情节。毕竟商业化设计的本质是价值塑造与价格对比,AI原生游戏若想持续发展,不建议只盯着天花板有限的IAA广告变现,而是用游戏设计的思想拔高其调动LLM/其他生成式AI工具的价值。
病毒式传播与玩家共创
AI原生游戏不应该以“技术”为壁垒,也不应该以“AI”作为卖点,而是思考AI以外真正触动玩家的体验是什么?最好得利用病毒式传播、玩家共创等方法,围绕玩法/体验构建专有的数据库,以此形成壁垒。
尽管我们聊到了诸多与生成式AI相似思想的游戏原型,但“玩家并不需要两个《王者荣耀》”,AI原生游戏并非单纯地再做一次相似作品,且核心卖点永远是游戏而非AI——AIGC+贪吃蛇,有趣之处仍然是贪吃蛇本体。当“AI游戏”的概念即将被滥用时,AI以外的部分才是核心竞争力,正如同鹰角、蛮啾、米哈游也从未用“二次元”标榜自己。
同时,AI原生游戏的成效也并不一定就属于最早发布、最早拥有大量玩家关注的作品,而是要探讨如何围绕体验获取更多玩家数据,以此迭代体验、不断循环,在细分体验下构建竞争壁垒。
这可类比于Midjouney,用户在Discord的每一次交互,既是获得文生图的反馈,也是为模型迭代提供数据,据此Midjourney能根据实际需求针对性地训练模型以迭代体验,形成数据飞轮。类似地,AI原生游戏区别于传统游戏,也应当围绕其设计,让玩家的交互既是体验的一部分,也同样可转化为迭代的养料。
为了吸引更多玩家,理解并结合好社区文化会是一大助力。考虑开发难度和传播能力,红极一时的小游戏《人生重开模拟器》可能是不错的试验田,其Gacha式的交互推进和略显荒诞的人生发展与AI有几分相似,同时也具备病毒式传播和二创的可能性——毕竟原版在第8天就已有10亿次游玩,并在此后衍生出魔法版、修仙版、爽文版等相似逻辑的作品。当这种思想接入生成式AI后,也许不只是纯随机的对话,可以衍生出更多的玩法。
而跳出游戏性本身,从壮大IP生命力的角度看,借力生成式AI的社区共创也非常值得探索——选择能掩盖生成式AI不易控制产出的短板,对“质量”要求不高,或者说本就接受浪漫主义、图一乐的内容方向。
譬如《崩坏:星穹铁道》在前段时间有场「无尽的三月七」图生图活动,模式简单易懂。若按传统图像生成的思想,想必是Prompt写满了诸如“Best Quality、Masterpiece、NSFW”等词,出现奇怪的手、精致但没灵魂属于常态。
不过,对于二创而言,精美不是唯一出路,玩家自己玩得开心更重要,有时候整活儿才更具传播力——在B站搜索关键词,再按点击量降序排列,似乎都是“怪东西”。但恰恰也是网友难以捉摸的想象力,将本不完美的图转化成QQ群里的MEME,产生病毒式传播。
从米哈游这次活动说开去,发行侧也可以将生成式AI打包为降低二创门槛的工具,并不一定是为了短期的整活儿,而是延续和扩展角色和游戏故事,让IP宇宙的内容更加健壮。例如,AI分镜版、AI四格漫画等,官方提供主题即可,其余由粉丝放手开干。
03
创作者
如果说上文是仰望星空,尝试探讨AI原生游戏会走向何方,那么在这一篇章,我们得脚踏实地,回归到这一切的根基——创作者。毕竟无论技术如何迭代,最稀缺的依然是一群懂游戏、有审美、有开发能力的创作者,后文笔者希望探讨生成式AI如何作为Copliot辅助好开发与发行,让人之价值回归于人之本身。
降本:真正要减少的是沟通返工,倒逼上游捋清需求
降低成本并非单纯的裁员,而是设法降低沟通、返工、探索的摩擦损耗,捋清楚开发需求。
每当论及生成式AI对行业的影响,媒体和上市公司总喜欢把“降本增效”挂在嘴边,但其中意蕴相当朦胧,一直存在种刻板印象的误解——仿佛“降本增效”等同于找到契机裁员,裁员后项目就能顺利发展。
尽管研发费用的确在与日俱增,但做得不够好玩,又如何靠省钱来获利。如果真要论及人天节省的直接比例,比如PBR流程里,早年的自动绑骨骼、自动展UV、生成LOD也不过是把原本0.5~1人天的工作量再缩短些,甚至还得人工复核破面、缺面等漏洞。
笔者认为,生成式AI对生产端的帮助更多是通过降低“沟通摩擦”和“探索试错”的成本,倒逼从业者用奥卡姆剃刀原理想清楚设计意图和核心体验,从而提升效率,不是单纯地优化人力。
作为一种复杂工程,提需求是开发者的一大要务,大模型也不可能直接服务于——“想个月流水过亿的方案吧”。但相对地,ChatGPT、Stable Difussion等工具快速出稿的特性,在一定程度上能让开发者厘清需求,围绕项目的核心体验和卖点,想好究竟要什么、不要什么。
毕竟,做加法是容易的,做减法是困难的,不少游戏败在缺乏主轴,产生冗余设计和美术资产,没有充分把资金花在服务于体验的刀刃上。同时,策划也可借助文生图制作情绪版,更好地向美术同学传递需求,原画也能用图生图反馈不同方案,与策划快速达成共识,不必费功夫产出大量废稿,尤其是涉及相对抽象的“温柔”“帅气”“仪式感”等词。同理,也可借助于Mubert、AIVA、Vits模型来试着生成音乐、配音小样,在早期拿捏需求。
说到底,AI并不会替人想清楚,即便快速产出100张图、100句话、100段BGM,也只会让缺乏指导思想的开发者更加迷茫而难以取舍。某种意义上,学习AI,反倒是认清自己,是个“知道自己知道、知道自己不知道”的过程,积累知识、术语、阅读量,以达到精准表达的目的。
增效:当基础活儿靠Copilot节省后,人的核心能力将被放大
美术的工作重心是表达,而不是绘画;UI的工作重心是交互,而不是图标。AI Copilot时代促使创作者思考真正重要的是什么。
凯文·凯利在接受采访时曾提出个观点——“人类 90% 的技能会被 AI 取代,剩下的 10% 会被放大。” 前半句的比例有多高并不重要,关键是充满人本主义的后半句,即那些“人之所以为人”的事物是什么。
以时下最火热的2D原画生成为例,回顾往昔,历史的车轮总是有相似性。19世纪法国诞生了摄影,其灵感源自早年的绘画辅助工具“暗箱” (小孔成像+画家描摹),而作为世界首张"照片",《勒格哈的窗外景色》乍一看颇为粗糙,还需要长达至少8小时的曝光,直到10年后达盖尔将技术发展到新里程碑,这群绘画出身的艺术家才摸到些门路,不过依然没找到“摄影”的独特性,还在沿袭严谨的静物构图等传统美术在做的事儿。
所以,不出意外的,彼时“绘画已死”的论调成为争议焦点。但有趣的是,也有不少画家开始用照片当绘画参考——毕竟请模特、布景费用比较昂贵,但短时间内又无法完成画作。同时,刚出生的摄影还引发了“绘画是为了什么”的思潮,随即在往后的30年间催生了以莫奈、塞尚为首的印象派(彼时还是挖苦用的贬义词),同时也诞生了有独立体系、更加原生于照相机的摄影师。而二者的发展也总是互为灵感,绘画受摄影的影响不再只是求真,摄影受绘画的影响也融入了更多主观性和浪漫主义色彩。
回到生成式AI在文生图的发展来看,总有些历史的暗合,同样经历了“耗时太长且出图不能看,到相对快速且质量提升”、“引发绘画是为了什么的思潮”等阶段。
关于这个问题,正好翻阅到穆夏的作品,颇有感触,美术最重要的应是表达。当手绘转为板绘、3D辅助建模深入一线,工具正不断地被迭代,触动人心的却总是精湛技艺背后的情绪和思想,而临摹从不会被看成美术工作者的代表作。
由此,笔者也观察到部分游戏的概念艺术家正积极用结合了ControlNet的Stable Diffusion来做探索,尤其是风格转化、头脑风暴、快速验证。
例如近期上映的《蜘蛛侠:纵横宇宙》就有独特、大胆且多变的渲染视效。也许艺术家在看完后就忽而有某种表达欲,可以将其放入Stable Diffusion+Midjourney,试着转换成截然不同的风格,先且不论精细度和正确性,只求快速产出氛围和情绪参考——打开脑洞,更好更快地产出属于自己的作品,而无需慢慢找参考、找到后还得亲自试着画画。节省时间之余,还可能带来有趣的元素。
此刻,2D美术生成已是如火如荼,快速出100张图不是难事,但对游戏而言,有意义的内容才真正稀缺。毕竟对持续内容更新的项目而言,单个版本可能只推出1~2个角色。尤其是内容向作品,需要对每个角色的设定、战斗配置、对应的验证环境都精心雕琢,才更好作为商品卖出,并非以量取胜。
因此,若想直接用上生成式AI的产出,似乎更适合在那些“不觉之间”,例如投放素材、补间动画、边角背景、休闲小品。而在哪些部分投入,也正反向体现了游戏的卖点,倒逼开发者将注意力放在表达和商业考量——
例如,擅长叙事的作品,讲究情绪引导,真正缺的是懂关卡、懂灯光、懂3C调度等的游戏导演,而不是堆砌文字;注重交互的作品,讲究UI/UX的易用性、沉浸感、世界观表达等,显然不是Midjourney生成像模像样的ICON那样简单粗暴......
无论如何,当生成式AI作为Copliot迟早替代基础活儿后,反倒促进人的学习和思考,让产出服务于价值本身。
04
近未来
每当新技术出现时,往往因其仍处在早期,会陷入一种“有点用但不多”的迷思,也容易有点“拿着锤子找钉子”的过度FOMO。不过事物发展总是螺旋演进的,需要理解好这把新锤子,不忽视也不鼓吹。笔者尝试在该篇章分享些有趣的发展方向,聊点近未来。
尽管学界对以GPT-4为首的大模型究竟是“浅层统计模型”还是“习得内在规则”还存在较大的分歧,但不可否认的是,当前焦点依然是基于Transformer+Next Token Prediction的路径,那如何打破Transformer不擅长处理长文本就是近期一大难题,毕竟普通GPT-4也只支持8000Token,会影响模型对字符间最长距离的支持和对上下文的计算压力。
好消息是,Sam Altman近期在访谈提到会在2023年内开放最多支持100万Token(约合75万个单词)的新GPT-4,并在2024年开放多模态GPT。类比于ControlNet不断更新输入条件,当输入框大幅提升且支持非文本后,模型对材料的学习能力可能更上一层楼,也让使用者的交互更灵活。
而当目光转向图像生成领域,碍于3D模型的信息密度高于2D图像/视频、高质量数据少于语言模型、参数规模也不可比拟,暂未出现所谓的“涌现”现象。现阶段最为瞩目的Text-to-3D也多是“曲线救国”,先生成低分辨率的2D图像或者3D粗模再进行优化,面数也非常低,突破口大概率还得看英伟达。
值得期待即将在8月召开的SIGGRAPH,英伟达预计会发布20篇生成式AI相关文章,包括但不限于“将文本转为个性化图像的新型AI模型”、“可以将图像转为3d模型的渲染工具”、“能够模拟复杂3D元素的AI驱动神经物理模型”,以及“生成实时视觉细节的神经渲染模型”。同期还有OpenAI的新模型Shape-E、以及基于Mesh生成的MeshDiffusion、国内无需3D数据直接文本生成带纹理的Mesh模型或NeRF模型ProlificDreamer。
多数3D生成模型是基于模型库训练的,即无法生成非模型库的内容,而MeshDiffusion可以基于Mesh生成训练数据中不存在的全新形状。不过面数还比较低,离工业还有点远。
回归当下,其实也有不少尝试融入现有3D流程的工具,尽管可控性势必与外包熟手相比欠了一层,不过依然有些小插件值得关注,例如专攻贴图生成的BariumAI(已被Unity收购)、WithPoly,效果比单纯Stable Diffusion生成的可能含后处理效果的贴图靠谱,但诸如修改法线强度或者粗糙度还得人工来;再比如Blockade Labs近期推出的天空盒生成,输入Prompt,可以得到360°旋转、并且是无缝衔接的环境图片。
现有图形学的渲染方式受限于硬件已然成熟,但其流程也不乏仅仅服务于下游的“中间品”。按PBR流程制作一个人形的3D角色,高模雕刻占比可能近50%的时间,而转三视图通常交给外包熟手搞定,展UV、删改LOD、蒙皮绑骨骼本就耗时不长,只是繁琐枯燥。
若以更原生的思想来看,AI并非融入旧产线去跟高度熟练的外包抢活儿,而是尝试构建一套新工作流(尽管如今还是存在想象中的科幻),不过目前的点云、SDF、NeRF等路径仍在实验室阶段,需要更长时间的探索。
至于代码辅助、音乐生成、声音转换、无穿戴动捕等也有不错的进展,可以预见,近期还会冒出不少AI Copilot型工具。不过,市场最稀缺的还是懂游戏的产品经理,而非单纯的工程师——毕竟对从业者而言,哪个好用、哪个好学就用哪个。参考游戏引擎的历史,好工具往往是一个好游戏的附属品,不然容易陷入“颅内自嗨”的窘境,若想搞ID Tech Engine就先搞个《DOOM》、搞Unreal就先搞个《虚幻竞技场》,因此好工具得从游戏团队“长”出来,很难由硅谷工程师们凭空生造。
殊途同归,AI原生Feature的探索最终都会回到游戏开发本身,新生的火炬之光依然得由开发者举起。而在路径混沌、资源分配不均的当下,大厂和创业团队尚未进入竞争阶段,二者都面临各自的难题——譬如大厂得思考ROI悖论,费力炼制的模型是否对应充足的真需求,中台的研究离一线业务是否又太远,懂AI又懂游戏的CTO此刻身在何方...... 那么,谁能挣脱桎梏,先行走出新路径,谁就能获得超额收益。四王抬棺,荣誉总是属于开拓者。
05
尾声,但并非结局
生成式AI的一切思考都不应盲目拥抱或排斥,唯有了解新技术的来龙去脉与本质,以发展和开放的心态去探索,回到最务实的生产流程和游戏乐趣后,才能更好地与时代共振。
最后,援引曾供职于OpenAI的两位科学家Kenneth Stanley和Joel Lehman在《为什么伟大不能被计划》一书所写的话作为结尾——
伟大不是目标指引的结果,因为通往伟大的路线从来都不是直线,很多时候快反而就是慢。莱特兄弟发明飞机,最早用的是自行车技术;本来是用于驱动雷达磁控管的一个部件,意外成就了微波炉;第一台电子计算机用的是电子管,但电子管根本就不是为了计算机而发明的;YouTube最初的设想是一个视频约会网站,后来发现人们喜欢在上面分享五花八门的视频;比尔·盖茨迎合极客打游戏的需求,结果普及了个人电脑;埃隆·马斯克起家是网上支付,最后却推出了SpaceX和特斯拉……
也许,此刻,在世界的某个角落里,一群够Nerd的天才正发明令人叹服的新“玩具”。
*文中所有图片版权归原作者所有,仅供分享交流不作商业用途,侵删