一种用于通关率预测的游戏AI深度强化训练方法技术

技术编号：34394610 阅读：19 留言：0更新日期：2022-08-03 21:26

本发明专利技术公开了一种用于通关率预测的游戏AI深度强化训练方法，涉及机器学习技术领域，主要包括步骤：通过第一深度训练模型获取各操作的被选概率；通过强化训练模型中的智能体基于各可行操作的被选概率获取当前游戏状态下的执行操作；根据执行操作运行游戏；根据通关结果获取预测通关率，并基于游戏实际通关率和预测通关率调整各可行操作的被选概率；根据调整后各可行操作的被选概率训练第二深度训练模型，并将训练后的参数赋予第一深度训练模型。本发明专利技术将玩家自身不确定性操作也考虑入对通关率的影响，基于真实通关率和预测通关率对可选操作的被选概率进行调整，使其更加适应于玩家操作不确定性这一特性,从而提高对游戏通关率的预测准确性。关率的预测准确性。关率的预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于通关率预测的游戏AI深度强化训练方法

[0001]本专利技术涉及机器学习方法
，具体涉及一种用于通关率预测的游戏AI深度强化训练方法。

技术介绍

[0002]因为游戏产业拥有庞大的产业经济及用户群体，大量的企业开始研发游戏，游戏公司之间的竞争日渐激烈。因此，游戏公司为了保持旗下游戏的市场竞争力，需要不断推出新的游戏关卡。通关率指的是全体玩家通过该关卡的平均概率，是游戏新关卡的重要指标。针对不同的玩家群体，新关卡需要设置成不同的通关率。例如，针对白领工作者设计的游戏关卡需要以休闲娱乐为主，应设计较高的通关率；为大学生群体设计的游戏关卡需要具备一定的挑战性，应设计较低的通关率。因此，在游戏新关卡上线之前，预测该关卡的通关率十分重要。目前，企业内预测通关率有人工预测和AI预测两种方法。人工预测是通过开放游戏内测，邀请真实玩家试玩来实现。这种方法费时费力，成本高昂。AI预测是使用游戏AI模拟玩家进行游戏，再通过游戏AI的通关结果计算通关率。这种方式成本低，但准确度不够高。由于人工预测的成本很高，AI代替人工预测游戏通关率是必然趋势。因此，提高AI预测游戏关卡通关率的准确性是一个亟待解决的问题。
[0003]游戏企业常用基于规则的传统算法设计游戏AI来预测通关率。但玩家的行为具有不确定性，无法用规则准确描述。这种游戏AI无法准确模拟玩家的游戏操作，所以预测准确性不佳。为了提高预测准确性，游戏AI需要在无法准确描述玩家行为规律的条件下，准确模拟玩家的游戏操作。基于规则的传统算法无法完成这个目标。
专...

【技术保护点】

【技术特征摘要】
1.一种用于通关率预测的游戏AI深度强化训练方法，其特征在于，包括步骤：S1：判断游戏运行次数是否达到预设次数，若是，进入S7步骤，若否，运行游戏并累计运行次数后进入S2步骤；S2：获取当前游戏状态下的可行操作集与各操作对应的特征信息组成的点对信息；S3：基于游戏自身的决策规则以及点对信息，通过第一深度训练模型获取各操作的被选概率；S4：通过强化训练模型中的智能体基于各可行操作的被选概率获取当前游戏状态下的执行操作；S5：根据执行操作运行游戏并记录当前游戏状态下的对局记录；S6：判断当前游戏是否结束，若是，获取游戏的通关结果并返回S1步骤，若否，返回S2步骤；S7：根据通关结果获取预测通关率，并基于游戏实际通关率和预测通关率调整各可行操作的被选概率；S8：根据调整后各可行操作的被选概率训练第二深度训练模型，并将训练后的参数赋予第一深度训练模型。2.如权利要求1所述的一种用于通关率预测的游戏AI深度强化训练方法，其特征在于，所述S2步骤中，点对信息中包括可行操作的历史执行操作选择记录以及对应可行操作的选择记录，所述点对信息通过OneHot编码处理为各选择记录间彼此独立的编码信息。3.如权利要求1所述的一种用于通关率预测的游戏AI深度强化训练方法，其特征在于，所述S4步骤中，执行操作的获取通过如下判断获取：根据可行操作在可行操作集中的排序逐个累加对应可行操作的被选概率；判断当前累加状态下的被选概率与所有可行操作的被选概率之和之间的比值是否大于第一随机值，若是，输出当前排序的可行操作为执行操作，若否，继续根据可行操作在可行操作集中的排序逐个累加；所述第一随机值的取值范围为0至1。4.如权利要求1所述的一种用于通关率预测的游戏AI深度强化训练方法，其特征在于，所述S7步骤中，各可行操作被选概率的调整通过如下判断获取：式中，p
new
为可行操作调整后的被选概率，p为可行操作调整前的被选概率，PR
t
为游戏的实际通关率，PR
e
为游戏的预测通关率，W为通关结果，当W＝0时表示通关失败，当W＝1时表示通关成功。5.如权利要求1所述的一种用于通关率预测的游戏AI深度强化训练方法，其特征在于，所述S8步骤中，第二深度训练模型的训练具体包括步骤：根据对局记录的权重比例关系，从预设次数游戏运行中所获取的对局记录集中挑选预设数量的对局记录作为训练样本集；
基于训练样本集更新第二深度训练模型的参数...

【专利技术属性】
技术研发人员：文世挺，肖尧，高云君，庞超逸，
申请(专利权)人：浙大宁波理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人