游戏模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28470962 阅读:13 留言:0更新日期:2021-05-15 21:38
本发明专利技术提供了一种游戏模型训练方法、装置、电子设备,方法包括:通过获取目标对象所处游戏环境中的动作信息集合与状态信息集合;通过执行所述动作信息集合中的动作信息,确定与所述策略生成子网络的初始参数相匹配的奖励参数;对所述策略生成子网络的初始参数进行更新通过状态评估子网络确定与状态信息相匹配的评估值信号参数;根据所述评估值信号参数,对所述策略生成子网络的初始参数和状态评估子网络的初始参数分别进行更新。由此,不但能够有效的保证游戏模型的准确性,更快速地对复杂维度的游戏策略的处理,及时准确地调整游戏策略,同时减少了计算成本,提升游戏策略生成的效率,实现对复杂维度的游戏策略的处理。实现对复杂维度的游戏策略的处理。实现对复杂维度的游戏策略的处理。

【技术实现步骤摘要】
游戏模型训练方法、装置、电子设备及存储介质


[0001]本专利技术涉及信息处理技术,尤其涉及游戏模型训练方法、装置、及电子设备。

技术介绍

[0002]人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0003]实时游戏一般都有复杂的游戏规则、多变的动态场景、行为达成不确定、信息不完全、决策时间短等特点。面对如此巨大的决策空间和决策的实时需求,如何制定、选择和执行策略是游戏智能系统面对的最主要问题,例如多人在线战术竞技游戏(Multiplayer Online Battle Arena,MOBA)的英雄联盟、王者荣耀、QQ飞车等不同的类型的游戏中,游戏机制更加复杂,且更接近真实世界的场景。由于在MOBA游戏中,玩家需要对抗和合作的游戏单元数量众多,丰富的游戏单元既使得游戏场景更加多元化,也增加了游戏AI策略模块的学习复杂度。因此如何在瞬息万变的游戏对抗中,确定准确的游戏策略是提升游戏AI能力的关键,因此在对较长游戏周期进行模拟以及寻找最优游戏策略时所需的时间成本较大,不利于游戏使用者的体验,因此,需要通过在保证游戏模型的准确性的同时,提升游戏模型的收敛速度,实现提升游戏策略生成的效率,更快速地对复杂维度的游戏策略的处理。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种游戏模型训练方法、装置、电子设备及存储介质,本专利技术实施例的技术方案是这样实现的:
[0005]本专利技术实施例提供了一种游戏模型训练方法包括:
[0006]获取目标对象所处游戏环境中的动作信息集合与状态信息集合;
[0007]确定所述游戏模型中的策略生成子网络的初始参数和状态评估子网络的初始参数;
[0008]当所述状态信息集合中的状态信息发生变化时,通过执行所述动作信息集合中的动作信息,确定与所述策略生成子网络的初始参数相匹配的奖励参数;
[0009]基于所述策略生成子网络的初始参数相匹配的奖励参数,对所述策略生成子网络的初始参数进行更新;
[0010]响应于发生变化的状态信息,通过状态评估子网络确定与状态信息相匹配的评估值信号参数;
[0011]根据所述评估值信号参数,对所述策略生成子网络的初始参数和状态评估子网络的初始参数分别进行更新,以实现确定与所述游戏模型中策略生成子网络的网络参数和状态评估子网络的网络参数。
[0012]本专利技术实施例还提供了一种游戏模型训练装置,包括:
[0013]信息传输模块,用于获取目标对象所处游戏环境中的动作信息集合与状态信息集合;
[0014]信息处理模块,用于确定所述游戏模型中的策略生成子网络的初始参数和状态评估子网络的初始参数;
[0015]所述信息处理模块,用于当所述状态信息集合中的状态信息发生变化时,通过执行所述动作信息集合中的动作信息,确定与所述策略生成子网络的初始参数相匹配的奖励参数;
[0016]所述信息处理模块,用于基于所述策略生成子网络的初始参数相匹配的奖励参数,对所述策略生成子网络的初始参数进行更新;
[0017]所述信息处理模块,用于响应于发生变化的状态信息,通过状态评估子网络确定与状态信息相匹配的评估值信号参数;
[0018]所述信息处理模块,用于根据所述评估值信号参数,对所述策略生成子网络的初始参数和状态评估子网络的初始参数分别进行更新,以实现确定与所述游戏模型中策略生成子网络的网络参数和状态评估子网络的网络参数。
[0019]上述方案中,
[0020]所述信息处理模块,用于根据所述目标对象所处的游戏环境,确定与所述游戏环境相匹配的样本采集方式;
[0021]所述信息处理模块,用于根据所确定的样本采集方式,确定与所述游戏环境相匹配的优先级阈值;
[0022]所述信息处理模块,用于基于所述与所述游戏环境相匹配的优先级阈值,对所述目标对象所处游戏环境中的动作信息和状态信息分别进行采样,确定所述目标对象所处游戏环境中的动作信息集合与状态信息集合。
[0023]上述方案中,
[0024]所述信息处理模块,用于当所述状态信息集合中的状态信息发生变化时,通过所述策略生成子网络确定与发生变化的状态信息相匹配的执行策略;
[0025]所述信息处理模块,用于根据所确定的执行策略,在所述动作信息集合中确定相对应的动作信息;
[0026]所述信息处理模块,用于在所述目标对象所处游戏环境中执行所述动作信息;
[0027]所述信息处理模块,用于基于所述动作信息的执行结果,确定与所述策略生成子网络的初始参数相匹配的奖励参数。
[0028]上述方案中,
[0029]所述信息处理模块,用于当所述目标对象所处游戏环境为竞速游戏时,确定执行所述动作信息时,所述竞速游戏的消耗时间;
[0030]所述信息处理模块,用于根据所述竞速游戏的消耗时间,确定所述策略生成子网络的初始参数相匹配的奖励参数。
[0031]上述方案中,
[0032]所述信息处理模块,用于基于所述策略生成子网络的初始参数相匹配的奖励参数,对所述奖励参数与第一奖励参数阈值进行比较;
[0033]所述信息处理模块,用于当确定所述奖励参数达到第一奖励参数阈值时,对所述策略生成子网络的初始参数进行更新。
[0034]上述方案中,
[0035]所述信息处理模块,用于基于所述状态评估子网络的初始参数和评估表达函数确定所述确定与状态信息相匹配的评估值信号参数;
[0036]所述信息处理模块,用于基于所述评估值信号参数,根据所述策略生成子网络的策略生成函数,确定所述策略生成子网络的更新参数,
[0037]所述信息处理模块,用于基于所述策略生成子网络的更新参数,对所述策略生成子网络的初始参数进行更新;
[0038]所述信息处理模块,用于基于所述评估值信号参数,确定所述状态评估子网络的更新参数;
[0039]所述信息处理模块,用于根据所述状态评估子网络的更新参数对所述状态评估子网络的初始参数进行更新。
[0040]上述方案中,
[0041]所述信息处理模块,用于监听所述游戏模型在目标对象所处游戏环境中的动作执行结果;
[0042]所述信息处理模块,用于确定目标动作执行结果的消耗时间;
[0043]所述信息处理模块,用于当目标动作执行结果的消耗时间小于第二奖励参数阈值时,对所述游戏模型的训练样本进行调整。
[0044]上述方案中,
[0045]所述信息处理模块,用于根据所述目标对象所处游戏环境的类型,确定所述目标对象的历史参数;
[0046]所述信息处理模块,用于基于所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种游戏模型训练方法,其特征在于,所述方法包括:获取目标对象所处游戏环境中的动作信息集合与状态信息集合;确定游戏模型中的策略生成子网络的初始参数和状态评估子网络的初始参数;当所述状态信息集合中的状态信息发生变化时,通过执行所述动作信息集合中的动作信息,确定与所述策略生成子网络的初始参数相匹配的奖励参数;基于所述策略生成子网络的初始参数相匹配的奖励参数,对所述策略生成子网络的初始参数进行更新;响应于发生变化的状态信息,通过状态评估子网络确定与状态信息相匹配的评估值信号参数;根据所述评估值信号参数,对所述策略生成子网络的初始参数和状态评估子网络的初始参数分别进行更新,以确定与所述游戏模型中策略生成子网络的网络参数和状态评估子网络的网络参数。2.根据权利要求1所述的方法,其特征在于,所述获取目标对象所处游戏环境中的动作信息集合与状态信息集合,包括:根据所述目标对象所处的游戏环境,确定与所述游戏环境相匹配的样本采集方式;根据所确定的样本采集方式,确定与所述游戏环境相匹配的优先级阈值;基于所述与所述游戏环境相匹配的优先级阈值,对所述目标对象所处游戏环境中的动作信息和状态信息分别进行采样,确定所述目标对象所处游戏环境中的动作信息集合与状态信息集合。3.根据权利要求1所述的方法,其特征在于,所述当所述状态信息集合中的状态信息发生变化时,通过执行所述动作信息集合中的动作信息,确定与所述策略生成子网络的初始参数相匹配的奖励参数,包括:当所述状态信息集合中的状态信息发生变化时,通过所述策略生成子网络确定与发生变化的状态信息相匹配的执行策略;根据所确定的执行策略,在所述动作信息集合中确定相对应的动作信息;在所述目标对象所处游戏环境中执行所述动作信息;基于所述动作信息的执行结果,确定与所述策略生成子网络的初始参数相匹配的奖励参数。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:当所述目标对象所处游戏环境为竞速游戏时,确定执行所述动作信息时所述竞速游戏的消耗时间;根据所述竞速游戏的消耗时间,确定所述策略生成子网络的初始参数相匹配的奖励参数。5.根据权利要求1所述的方法,其特征在于,所述基于所述策略生成子网络的初始参数相匹配的奖励参数,对所述策略生成子网络的初始参数进行更新,包括:基于所述策略生成子网络的初始参数相匹配的奖励参数,对所述奖励参数与第一奖励参数阈值进行比较;当确定所述奖励参数达到第一奖励参数阈值时,对所述策略生成子网络的初始参数进行更新。
6.根据权利要求1所述的方法,其特征在于,所述根据所述评估值信号参数,对所述策略生成子网络的初始参数和状态评估子网络的初始参数分别进行更新,包括:基于所述状态评估子网络的初始参数和评估表达函数确定所述确定与状态信息相匹配的评估值信号参数;基于所述评估值信号参数,根据所述策略生成子网络的策略生成函数,确定所述策略生成子网络的更新参数;基于所述策略生成子网络的更新参数,对所述策略生成子网络的初始参数进行更新;基于所述评估值信号参数,确定所述状态评估子网络的更新参数;根据所述状态评估子网络的更新参数对所述状态评估子网络的初始参数进行更新。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:监听...

【专利技术属性】
技术研发人员:杨敬文
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1