N.GAME丨网易互娱AI Lab技术主管曾广俊：让游戏更智能—

早盘：美股跌幅收窄市场关注PPI通胀数据实时报道 【聚焦】龙国最强的23家涂企，为何规模不及宣伟的三分之一，也不及立邦？ 城发环境：副总经理樊林辞职又一个里程碑 圣诺生物：拟使用不超过70000万元闲置资金进行委托理财最新进展 A股头部轮胎企业再添海外重大投资！赛轮轮胎拟斥资逾20亿元在埃及建厂，年产360万条子午轮胎后续来了 固德威“源网荷储智”平台化战略，储能一体柜打造能源管理“智慧大脑”又一个里程碑 潮宏基：提名解浩然先生为公司第七届董事会独立董事候选人官方处理结果 比特币创下历史新高，以太币一度逼近历史高点 盈新发展：聘任边冬瑞为公司董事会秘书 明天停牌！605255，筹划重大事项，控制权或变更是真的？ 思科周四早盘下跌0.17%秒懂 城发环境：副总经理樊林辞职秒懂 比特币创下历史新高，以太币一度逼近历史高点 非银存款高增，M1指示资金活化积极这么做真的好么？ 乌鲁木齐银行再迎新行长 乌鲁木齐银行再迎新行长官方通报 时隔一年有余！龙国人寿董事任职资格获批 个人消费贷贴息，主要贴给谁？是真的吗？ 消费电子异动拉升，科森科技涨停 京东集团2025年二季度业绩亮眼京东工业太璞数实一体供应链助力行业数智转型实时报道 早有资金进场埋伏！全市场唯一地产ETF（159707）盘中拉升2．4%！衢州发展一字涨停 招股书精读-华新精科（专注于精密冲压领域产品）秒懂 在岸人民币对美元开盘下跌报7.1812官方已经证实 京东集团(09618)绩后挫逾3% 次季纯利跌5成新业务经营亏损大幅扩大官方处理结果 京东集团(09618)绩后挫逾3% 次季纯利跌5成新业务经营亏损大幅扩大专家已经证实 早有资金进场埋伏！全市场唯一地产ETF（159707）盘中拉升2．4%！衢州发展一字涨停 在岸人民币对美元开盘下跌报7.1812 李大霄：很快能稳住的原因专家已经证实 加拿大AI初创公司Cohere完成一轮5亿美元融资，公司估值达68亿美元专家已经证实 丰田第一财季净利下降37%，世界汽车霸主这是怎么了？后续来了 精优药业拟配发合共1.6亿股净筹款项用于新业务发展太强大了 美联储9月或启动温和降息周期市场预期25个基点成定局官方处理结果 现代牙科发盈喜预期上半年取得纯利约2.79亿至2.95亿港元同比增加约30.1%至37.6% 美联储9月或启动温和降息周期市场预期25个基点成定局反转来了 大涨10%！巴菲特旗下公司出手建仓！最新进展 美联储9月或启动温和降息周期市场预期25个基点成定局是真的？ 985亿元营收背后：京东物流上半年以 “智” 破局，海外仓版图实现进一步扩张官方已经证实 盛业发布中期业绩股东应占溢利2亿元同比增加28.66%太强大了 【龙国银河宏观】从金融数据看流动性 ——2025年7月金融数据解读 巴菲特和“龙国巴菲特” 最新持仓披露 多地尿素出厂价跌破1700元/吨，后期需重点关注两点变化秒懂 致远互联与华为云联合推出“AI协同算力”解决方案最新进展 快递企业开始放弃低价竞争策略后续反转 清仓！无印良品多地关店，官方回应！ | BUG官方通报来了 盛业发布中期业绩股东应占溢利2亿元同比增加28.66% 业绩连增4个季度，仅10股！突破1000亿元，A股公司派发大红包

2022N.GAME网易游戏开发者峰会于「4月18日-4月21日」举办，本届峰会围绕全新主题“未来已来 The Future is Now”，共设置创意趋势场、技术驱动场、艺术打磨场以及价值探索场四个场次，邀请了20位海内外重磅嘉宾共享行业研发经验、前沿研究成果和未来发展趋势。

今天的干货来自技术驱动场的嘉宾曾广俊，他是网易互娱AI Lab的技术主管。

N.GAME丨网易互娱AI Lab技术主管曾广俊：让游戏更智能——强化学习在互娱游戏的落地

以下是嘉宾分享实录：（部分删减与调整）

大家好。非常高兴来到N.GAME峰会跟大家分享一下强化学习在互娱游戏的落地。

互娱AI Lab成立于2017年底，主要是要将3D、CV、RL、NLP和语音技术落地到游戏当中，解决游戏的痛点问题。今天我们来讲一下强化学习是什么?强化学习可以在游戏里面做些什么？最后展望一下强化学习除了在游戏当中，还能在其他领域做出什么样的应用。

一、强化学习是什么？

N.GAME丨网易互娱AI Lab技术主管曾广俊：让游戏更智能——强化学习在互娱游戏的落地

假如现在我们要训练一条小狗做出坐下的这样一个动作，我们可能会做出一个指令让它去坐下。如果小狗做对了这个动作，我们就会给一个食物奖励它；如果它没做到那我们就不会给奖励。通过这样的反馈，多次的迭代，我们的小狗最终就会知道要做出坐下这个动作才能获得奖励。

同样，当我们的游戏接入了以后，我们会把当前的状态信息发送给AI，AI根据当前的一些状态去做出动作。由游戏反馈这个动作是否会有奖惩，AI得到反馈之后就会据此调整它的策略。

通过多轮的迭代，它就会知道在某个时刻应该要做什么样的动作才能获得最大的回报。由于我们需要和环境进行大量交互，所以强化实习通常需要很多的时间让机器去做探索，努力缩小探索空间、提高样本的利用率，来提高强化学习的训练效果是一个重要的方向。

二、强化学习可以在游戏里面做些什么？

游戏要接入强化学习时非常简单，只要实现两个接口，一个就是reset接口，一个就step接口。reset接口会从游戏里面返回初始状态；step接口就是从AI里面获取对应的动作。然后，游戏环境返回下一个状态的信息和一些回报的奖励信息，最后把这个游戏打包成动态库或者docker，就可以交给强化学习AI训练。

N.GAME丨网易互娱AI Lab技术主管曾广俊：让游戏更智能——强化学习在互娱游戏的落地

1、强化学习的主要应用：对战型AI

实际上，强化学习最主要的应用主要还是对战型AI。在互娱游戏中我们落地了NPC的对战AI。先以天下3山海绘为例，天下3山海绘是一个人机对战的卡牌游戏，玩家可以选多个难度，跟机器人进行对战。

策划需要在短时间内完成人机对战AI，这个AI要适应多种难度，且难度要能动态调整，以适应玩家的水平。

如果我们用行为树做山海绘的AI的话，是需要策划用很多的时间去列举每个状态的信息，然后根据状态的节点去做对应的动作，如果我们要做分级难度的话就更需要细致去划分，这样花费的时间将会更加巨大，上线之后每一次卡牌的更新，都需要策划去重新花费大量时间修改行为树去适应新的卡牌。

实际上，这浪费了很多的人力和时间。更关键的是，行为树的AI通常强度都是达不到通常玩家的水平。如果用强化学习去做的话，我们就可以很快速的去生成AI，尤其当新卡更新到新的游戏环境里面，强化学习可以很快速地适应一个新的环境，只需要重新再Finetune一下就可以了。

强化学习训练本身，是在做机器人的自对弈的行为。这样的一个过程中，自然而然地批量生成了大量不同难度的AI。这些AI可以无缝迁移，滿足玩家对于难度选择的需求。最关键的一点是用强化学习去做AI，它最后的强度能够远超玩家的水平。

我们的强化学习训练和一般的强化学习类似，都是主要由采样器，训练器来组成。采样器在CPU上面执行AI的决策，通过与游戏环境进行交互，生成大量的样本。这些样本又可以送到GPU上面的训练器上进行优化，优化出来的模型再放到模型池里面。

模型池可以让AI去选择对战的对手，通过迭代模型池的强度，当前训练的AI也会逐渐的变强。其中，模型池的模型也可以作为不同难度的AI模型让玩家选择。这个AI的难点主要是在动作空间上，刚才提到训练强化学习其实是试错的过程，如果我们可选的动作太多的话，我们需要去找到合适的动作就需要很长的时间。

比如我要出AABCCD这样的一个动作，它有好几张牌，我们第一张牌可能会有几十个选择，第二张牌同样也会有几十张选择。这么多卡牌的选择组合起来，树型的结构会使我们的动作空间成指数级增长。我们的解决方案是把单步决策变成序列决策。

也就是说，我们从游戏环境里面得到的状态，AI决策第一张牌应该要出什么，再把第一张出的牌和环境的状态再输进去AI，再做一次决策。第二张牌再以同样的模式，再输出到下一轮的决策里面。

最后，我们就可以输出一个持续的决策，AABCCD再统一返回到给我们的游戏环境中。这样就可以把一步的决策化为多步的决策，把游戏空间从指数级降到一个常数的级别。

我们对比一下强化学习跟行为树的AI。在加入新的卡牌之后，强化学习明显需要的时间会比行为树少很多。它相比于行为树，只有3-5个等级，具有的100多个难度等级也比较平滑。另外，它还可能会存在着比较大的难度跳跃。而强化学习，它能做到远高于玩家的水平，这是行为树不能做到的。

N.GAME丨网易互娱AI Lab技术主管曾广俊：让游戏更智能——强化学习在互娱游戏的落地

我们也挑战了更难的游戏，参加了NeurIPS举办的MineRL Diamond比赛,这个比赛已经举办第三届，每一次都吸引了大量工业界和学术界的强队参加。这个比赛的目的就是在MineCraft的环境中，从一开始用一把斧头开始采集木头资源，再通过木头资源去做下一步的工具，最后，要挖掘到钻石。这个比赛举办以来，基本上没有队伍能在这种环境里面从中挖到了钻石。比赛有很多方案，大多数队伍都选择了基于玩家数据去进行训练，如基于玩家数据进行模仿学习，或者在模仿学习组上再进行强化学习。

但官方提供的数据其实不多，玩家的水平也是参差不齐，其中也有很多无效的操作。我们也尝试过使用官方的数据集进行训练，实际上效果也并不好。那我们能不能直接用强化学习，从零开始训练呢？可以，但我们要解决几个难点。环境输出的是以图像信息为主的，由于图像信息，它是一个3x64x64的一个图片，它的信息维度是非常大的。要AI去遍历这么一个大空间的数据其实非常困难，因此，我们就采用了CNN网络，尽量去降低它的一个复杂度，提出它的一些关键特征。

另外，对于这个比赛需要AI有长期的规划能力。比如它需要先从产木头开始，产够了足够的木头才能去做木镐，用木镐才能去更好地去挖石头，挖到石头后制造石搞去挖铁，这样一环扣一环的操作才能有机会挖到钻石，这就需要AI在每个时刻都能知道自己的策略是要干什么，自己下一步需要干什么。而这么长的一段时间里面，让AI去盲目地去探索也是使用强化学习直接训练所需要面临巨大挑战。我们做的主要工作就是从缩减它的探索空间。

首先是动作编码，我们会把动作精简到只有20个动作，而且根据当前的局面去屏蔽一些不需要的动作。这样的话，实际上我们AI每一次可以选择动作非常少，这样可以压缩探索的空间。跳帧也是一个关键点。

通过跳帧我们可以把本来很长的游戏压缩成比较短的游戏过程，AI需要做的决策数目也大大缩小了，这些策略都能进一步缩减我们的探索空间。缩减了探索空间，我们就能在比较短的时间里面训出比较好的效果。更重要的是，有一个合理的奖励。比如我们去寻宝，需要一个藏宝图，用藏宝图去指引我们下一步的目标在哪里，通过达到一个目标获取下一条线索，才能更容易找到目标。

如果用原生的原始奖励，要不就是第一次资源就获得奖励之后再不能获得奖励。这样的话，我们的AI可能就学不到，应该要重复收集足够的资源才能去做工具。如果每一次都有奖励，AI又可能会学到刷分这样的一个行为。所以我们就细致的调整了它实际的一个奖励，去更好地引导AI的训练。

比如木头的话，它是一开始需要比较多，后面没有用。所以，我们一开始会给它重复的奖励，到了一定程度就不会再给奖励。另外，挖钻石的行为，其实跟挖矿、挖石头上的一个操作是类似的，都是要不断挖掘。我们需要去鼓励它进行这样的操作，所以挖石头，挖铁矿我们都是给它无限的奖励。最后，我们通过这样的策略非常有效的将AI训练出来。可以看到，随着AI的迭代，它的累积回报跟挖到钻石的概率都是飞快的上升。最后，我们也是以历史最高分获得了冠军，也是这比赛举办以来第一次有队伍挖到钻石了。

2、用强化学习进行辅助游戏设计

我们还探索用强化学习去做辅助游戏设计的工作。比如有一个竞速游戏，需要测试赛车的圈速、赛车的漂移性能、赛道的通过性、弯道的难度；如果用人工验证的话，要花费很多的时间。比如，我们需要若干天让它去熟悉游戏、掌握游戏的技巧，将游戏技术提高到一个比较高的水平，让测试才相对准确一点。还要去做验证赛车和赛道的组合，把每一个赛车和赛道的组合都跑一遍，这也需要耗費很多时间。

N.GAME丨网易互娱AI Lab技术主管曾广俊：让游戏更智能——强化学习在互娱游戏的落地

策划重新设计的赛车或者赛道后，需要人工去重新适应新的赛车赛道的特性，这需要花费很多时间去重新适应。另外用人工验证的话，还会存在一些偏差。因为人工验证不可能保证每一次测试都是人类地最高水平，所以他可能需要重复测试验证。另外人固有的操作习惯也会影响他评测新的赛车，在旧的赛车赛道，他已经很熟悉，遇到新的赛车之后，他可能就会沿用旧赛车的一些操作，这样新赛车的特性可能就不一定能发挥出来。

强化学习的一个重点就是要加速AI的训练。因为只有加速了AI的训练，我们才能更好的适应策划的新的配置，能在更短的时间里面完成一个跑测。因此，我们的主要工作就是把一些不合理的动作屏蔽掉，减少它的探索空间，动态的提前结束游戏。

相似的赛道同时训练也有助于AI去学习它们之间的联系，加速它的收敛过程。AI在CPU机器上也可以快速输出结果。即便是在CPU机器上进行训练，我们也可以缩短90%的测试时间。利用AI可以在同一个赛道同时输出多辆赛车，观察在每一个时刻，它的位置、速度、档位、还有赛车的引擎的信息，方便策划去调试。

3、用强化学习进行游戏的平衡性分析

除了进行竞速游戏的验证以外，我们还可以做一些游戏的平衡性分析。比如在策略游戏里面，新的英雄上线了可能会有玩家吐槽，这个英雄太强了，跟什么英雄搭配都是无解的存在。那下一个版本策划可能就会修改，把它削弱一点。实际上，上线玩家又可能会发现这英雄被削的太多了，之前充的钱可能又白花了。这样的话就会给游戏的口碑带来极大的影响，同时也会非常影响游戏玩家的体验。

我们尝试可以用事前分析去解决，比如可以用人工去评估，可以用程序去模拟所有的组合对战结果。当然，我们也可以用强化学习去进行探索，用人工的话，就像刚才那样可能就会出现，人工的遗漏。有一些情况没有考虑到，上线之后就会被玩家发现有一些特别强的组合。这样的话，它的准确率实际上是比较低的。

如果用程序去模拟所有组合的结果会非常准确，但因为它的组合数非常多，要通常需要数个月的时间，甚至不可接受的时间。如果用强化学习的话，就相当于在两者时间取了个折中。通过强化学习，我们启发式去进行搜索，并不需要进行所有的组合的枚举。我们可以通过启发式的搜索找到一些可能比较强的组合。我们并不需要把所有的组合都遍历一遍，就可以得出一个比较精准的结果，因为AI并没有人所拥有的先验知识的一些偏见，所以相对人的经验AI的结果会更准确。

N.GAME丨网易互娱AI Lab技术主管曾广俊：让游戏更智能——强化学习在互娱游戏的落地

强化学习的训练都离不开一个环境，在这一个游戏平衡性分析的场景里面，搭建一个合适的环境来表述这个问题是非常重要的。我们用模型池跟游戏模拟器组成这一个游戏环境，每一次，AI从游戏环境里面获取到当前要对战的阵容，然后它所需要的角色就是要击败这个阵容所需要的组合。输出的动作返回到战斗模拟器去进行模拟对战，最后把赛果返回到我们的AI里面。

AI通过这样的反馈就能获取这一个阵容是否合理，多轮的迭代之后AI就会学会如何搭配阵容才能打败对面的组合，而这样的一个强的组合也会逐渐加入到我们的阵容池里面进行淘汰，把差的阵容淘汰，留下强的阵容。通过迭代，阵容池里面就可以留下一大批可能潜在过强的英雄组合，我们把这样的一个流程搭成一个自助跑测平台，策划只需要上传更新好的游戏属性文件，然后点一下运行就可以直接跑出来所需要的结果。包括每一个阵容它的实际对战的结果。每一个英雄的实际强度跟其他英雄的对比，还有阵容的阵容之中每个英雄的出场率，都可以验证这个英雄的强度是否符合策划预先设计的预期。

三、强化学习在其他领域的应用

前面说了很多强化学习在互娱游戏里面的落地，我们也可以观察到强化学习，不止在游戏里面有应用，我们还可以看到在国外，有一些公司用强化学习和对抗学习做游戏关卡的生成。有自动驾驶和机器人的控制都大量用到了强化学习的技术。

最近，Deepmind还提出了用强化学习去控制核聚变的反应堆。我相信这样的一个技术可以促进最终核聚变的应用。

我的演讲到此结束，非常感谢大家。

2022N.GAME网易游戏开发者峰会4月18日-4月21日每天下午15点直播，戳链接可直达峰会官网：https://game.academy.163.com/event/nGame