一种用于通关率预测的游戏AI深度强化训练方法技术

技术编号:34394610 阅读:19 留言:0更新日期:2022-08-03 21:26
本发明专利技术公开了一种用于通关率预测的游戏AI深度强化训练方法,涉及机器学习技术领域,主要包括步骤:通过第一深度训练模型获取各操作的被选概率;通过强化训练模型中的智能体基于各可行操作的被选概率获取当前游戏状态下的执行操作;根据执行操作运行游戏;根据通关结果获取预测通关率,并基于游戏实际通关率和预测通关率调整各可行操作的被选概率;根据调整后各可行操作的被选概率训练第二深度训练模型,并将训练后的参数赋予第一深度训练模型。本发明专利技术将玩家自身不确定性操作也考虑入对通关率的影响,基于真实通关率和预测通关率对可选操作的被选概率进行调整,使其更加适应于玩家操作不确定性这一特性,从而提高对游戏通关率的预测准确性。关率的预测准确性。关率的预测准确性。

【技术实现步骤摘要】
一种用于通关率预测的游戏AI深度强化训练方法


[0001]本专利技术涉及机器学习方法
,具体涉及一种用于通关率预测的游戏AI深度强化训练方法。

技术介绍

[0002]因为游戏产业拥有庞大的产业经济及用户群体,大量的企业开始研发游戏,游戏公司之间的竞争日渐激烈。因此,游戏公司为了保持旗下游戏的市场竞争力,需要不断推出新的游戏关卡。通关率指的是全体玩家通过该关卡的平均概率,是游戏新关卡的重要指标。针对不同的玩家群体,新关卡需要设置成不同的通关率。例如,针对白领工作者设计的游戏关卡需要以休闲娱乐为主,应设计较高的通关率;为大学生群体设计的游戏关卡需要具备一定的挑战性,应设计较低的通关率。因此,在游戏新关卡上线之前,预测该关卡的通关率十分重要。目前,企业内预测通关率有人工预测和AI预测两种方法。人工预测是通过开放游戏内测,邀请真实玩家试玩来实现。这种方法费时费力,成本高昂。AI预测是使用游戏AI模拟玩家进行游戏,再通过游戏AI的通关结果计算通关率。这种方式成本低,但准确度不够高。由于人工预测的成本很高,AI代替人工预测游戏通关率是必然趋势。因此,提高AI预测游戏关卡通关率的准确性是一个亟待解决的问题。
[0003]游戏企业常用基于规则的传统算法设计游戏AI来预测通关率。但玩家的行为具有不确定性,无法用规则准确描述。这种游戏AI无法准确模拟玩家的游戏操作,所以预测准确性不佳。为了提高预测准确性,游戏AI需要在无法准确描述玩家行为规律的条件下,准确模拟玩家的游戏操作。基于规则的传统算法无法完成这个目标。

技术实现思路

[0004]为了更好的提升游戏AI对于通关率预测的准确性,充分考虑到少量非常规操作的出现对游戏AI预测的全局性影响,本专利技术提出了一种用于通关率预测的游戏AI深度强化训练方法,包括步骤:
[0005]S1:判断游戏运行次数是否达到预设次数,若是,进入S7步骤,若否,运行游戏并累计运行次数后进入S2步骤;
[0006]S2:获取当前游戏状态下的可行操作集与各操作对应的特征信息组成的点对信息;
[0007]S3:基于游戏自身的决策规则以及点对信息,通过第一深度训练模型获取各操作的被选概率;
[0008]S4:通过强化训练模型中的智能体基于各可行操作的被选概率获取当前游戏状态下的执行操作;
[0009]S5:根据执行操作运行游戏并记录当前游戏状态下的对局记录;
[0010]S6:判断当前游戏是否结束,若是,获取游戏的通关结果并返回S1步骤,若否,返回S2步骤;
[0011]S7:根据通关结果获取预测通关率,并基于游戏实际通关率和预测通关率调整各可行操作的被选概率;
[0012]S8:根据调整后各可行操作的被选概率训练第二深度训练模型,并将训练后的参数赋予第一深度训练模型。
[0013]进一步地,所述S2步骤中,点对信息中包括可行操作的历史执行操作选择记录以及对应可行操作的选择记录,所述点对信息通过OneHot编码处理为各选择记录间彼此独立的编码信息。
[0014]进一步地,所述S4步骤中,执行操作的获取通过如下判断获取:
[0015]根据可行操作在可行操作集中的排序逐个累加对应可行操作的被选概率;
[0016]判断当前累加状态下的被选概率与所有可行操作的被选概率之和之间的比值是否大于第一随机值,若是,输出当前排序的可行操作为执行操作,若否,继续根据可行操作在可行操作集中的排序逐个累加;
[0017]所述第一随机值的取值范围为0至1。
[0018]进一步地,所述S7步骤中,各可行操作被选概率的调整通过如下判断获取:
[0019][0020]式中,p
new
为可行操作调整后的被选概率,p为可行操作调整前的被选概率,PR
t
为游戏的实际通关率,PR
e
为游戏的预测通关率,W为通关结果,当W=0时表示通关失败,当W=1时表示通关成功。
[0021]进一步地,所述S8步骤中,第二深度训练模型的训练具体包括步骤:
[0022]根据对局记录的权重比例关系,从预设次数游戏运行中所获取的对局记录集中挑选预设数量的对局记录作为训练样本集;
[0023]基于训练样本集更新第二深度训练模型的参数。
[0024]进一步地,所述S5步骤中,还包括步骤:
[0025]根据执行操作记录于对局记录的先后顺序设置执行操作的被选权重;
[0026]所述执行操作的被选权重随对局记录的增多而增大。
[0027]进一步地,所述训练样本集的选取可通过如下判断获取:
[0028]根据对局记录集中每个执行操作的被选权重计算对局记录的总权重;
[0029]根据执行操作在对局记录集中的排序,逐个累加执行操作的被选权重并获得当前累加状态下对局记录的累计权重;
[0030]根据当前累加状态下对局记录的累计权重与对局记录的总权重的比值更新对应执行操作的被选权重;
[0031]根据执行操作在对局记录集中的排序,逐个判断更新后执行操作的被选权重是否大于第二随机值,若是,将该执行操作加入训练样本集,若否,判断下一次序的执行操作直至样本训练集达到目标样本规模;
[0032]所述第二随机值的取值范围为0至1。
[0033]进一步地,所述第二深度训练模型的参数更新通过如下步骤表示:
[0034]判断当前迭代与上一迭代,第二深度训练模型的损失函数值之间的差值是否大于损失变化阈值,若是在迭代达到最大迭代次数前进入下一步骤;
[0035]通过预设损失函数更新损失函数值;
[0036]根据更新后的损失函数值更新参数,并基于学习衰减率调整学习率。
[0037]进一步地,所述预设损失函数可表示为如下公式:
[0038]l(f(x
i
),y
i
)=‖f(x
i
)

y
i
‖2[0039][0040]式中,x
i
为训练样本集中第i个样本输入,y
i
为训练样本集中第i个样本对应的点对信息,f(x
i
)为训练样本集中第i个样本的通关结果,L为更新后的损失函数值,n为训练样本集中的样本数量;
[0041]所述参数的更新表示为如下公式:
[0042][0043]式中,ω为更新后的参数,ω0为更新前的参数,η0为调整前的学习率;
[0044]所述学习率的调整表示为如下公式:
[0045]η=λη0[0046]式中,η为调整后的学习率,λ为学习衰减率。
[0047]进一步地,所述S8步骤之后还包括步骤:
[0048]S9:判断训练是否结束,若否,重置运行次数和对局记录,并返回S1步骤。
[0049]综上所述,本专利技术与现有技术相比,至少含有以下有益效果:
[0050](1)本专利技术所述的一种用于通关率预测的游戏AI本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于通关率预测的游戏AI深度强化训练方法,其特征在于,包括步骤:S1:判断游戏运行次数是否达到预设次数,若是,进入S7步骤,若否,运行游戏并累计运行次数后进入S2步骤;S2:获取当前游戏状态下的可行操作集与各操作对应的特征信息组成的点对信息;S3:基于游戏自身的决策规则以及点对信息,通过第一深度训练模型获取各操作的被选概率;S4:通过强化训练模型中的智能体基于各可行操作的被选概率获取当前游戏状态下的执行操作;S5:根据执行操作运行游戏并记录当前游戏状态下的对局记录;S6:判断当前游戏是否结束,若是,获取游戏的通关结果并返回S1步骤,若否,返回S2步骤;S7:根据通关结果获取预测通关率,并基于游戏实际通关率和预测通关率调整各可行操作的被选概率;S8:根据调整后各可行操作的被选概率训练第二深度训练模型,并将训练后的参数赋予第一深度训练模型。2.如权利要求1所述的一种用于通关率预测的游戏AI深度强化训练方法,其特征在于,所述S2步骤中,点对信息中包括可行操作的历史执行操作选择记录以及对应可行操作的选择记录,所述点对信息通过OneHot编码处理为各选择记录间彼此独立的编码信息。3.如权利要求1所述的一种用于通关率预测的游戏AI深度强化训练方法,其特征在于,所述S4步骤中,执行操作的获取通过如下判断获取:根据可行操作在可行操作集中的排序逐个累加对应可行操作的被选概率;判断当前累加状态下的被选概率与所有可行操作的被选概率之和之间的比值是否大于第一随机值,若是,输出当前排序的可行操作为执行操作,若否,继续根据可行操作在可行操作集中的排序逐个累加;所述第一随机值的取值范围为0至1。4.如权利要求1所述的一种用于通关率预测的游戏AI深度强化训练方法,其特征在于,所述S7步骤中,各可行操作被选概率的调整通过如下判断获取:式中,p
new
为可行操作调整后的被选概率,p为可行操作调整前的被选概率,PR
t
为游戏的实际通关率,PR
e
为游戏的预测通关率,W为通关结果,当W=0时表示通关失败,当W=1时表示通关成功。5.如权利要求1所述的一种用于通关率预测的游戏AI深度强化训练方法,其特征在于,所述S8步骤中,第二深度训练模型的训练具体包括步骤:根据对局记录的权重比例关系,从预设次数游戏运行中所获取的对局记录集中挑选预设数量的对局记录作为训练样本集;
基于训练样本集更新第二深度训练模型的参数...

【专利技术属性】
技术研发人员:文世挺肖尧高云君庞超逸
申请(专利权)人:浙大宁波理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1