游戏模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：28470962 阅读：13 留言：0更新日期：2021-05-15 21:38

本发明专利技术提供了一种游戏模型训练方法、装置、电子设备，方法包括：通过获取目标对象所处游戏环境中的动作信息集合与状态信息集合；通过执行所述动作信息集合中的动作信息，确定与所述策略生成子网络的初始参数相匹配的奖励参数；对所述策略生成子网络的初始参数进行更新通过状态评估子网络确定与状态信息相匹配的评估值信号参数；根据所述评估值信号参数，对所述策略生成子网络的初始参数和状态评估子网络的初始参数分别进行更新。由此，不但能够有效的保证游戏模型的准确性，更快速地对复杂维度的游戏策略的处理，及时准确地调整游戏策略，同时减少了计算成本，提升游戏策略生成的效率，实现对复杂维度的游戏策略的处理。实现对复杂维度的游戏策略的处理。实现对复杂维度的游戏策略的处理。

全部详细技术资料下载

【技术实现步骤摘要】
游戏模型训练方法、装置、电子设备及存储介质

[0001]本专利技术涉及信息处理技术，尤其涉及游戏模型训练方法、装置、及电子设备。

技术介绍

[0002]人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
[0003]实时游戏一般都有复杂的游戏规则、多变的动态场景、行为达成不确定、信息不完全、决策时间短等特点。面对如此巨大的决策空间和决策的实时需求，如何制定、选择和执行策略是游戏智能系统面对的最主要问题，例如多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)的英雄联盟、王者荣耀、QQ飞车等不同的类型的游戏中，游戏机制更加复杂，且更接近真实世界的场景。由于在MOBA游戏中，玩家需要对抗和合作的游戏单元数量众多，丰富的游戏单元既使得游戏场景更加多元化，也增加了游戏AI策略模块的学习复杂度。因此如何在瞬息万变的游戏对抗中，确定准确的游戏策略是提升游戏AI能力的关键，因此在对较长游戏周期进行模拟以及寻找最优游戏策略时所需的时间成本较大，不利于游戏使用者的体验，因此，需要通过在保证游戏模型的准确性的同时，提升游戏模型的收敛速度，实现提升游戏策略生成的效率，更快速地对复杂维度的游戏策略的处...

【技术保护点】

【技术特征摘要】
1.一种游戏模型训练方法，其特征在于，所述方法包括：获取目标对象所处游戏环境中的动作信息集合与状态信息集合；确定游戏模型中的策略生成子网络的初始参数和状态评估子网络的初始参数；当所述状态信息集合中的状态信息发生变化时，通过执行所述动作信息集合中的动作信息，确定与所述策略生成子网络的初始参数相匹配的奖励参数；基于所述策略生成子网络的初始参数相匹配的奖励参数，对所述策略生成子网络的初始参数进行更新；响应于发生变化的状态信息，通过状态评估子网络确定与状态信息相匹配的评估值信号参数；根据所述评估值信号参数，对所述策略生成子网络的初始参数和状态评估子网络的初始参数分别进行更新，以确定与所述游戏模型中策略生成子网络的网络参数和状态评估子网络的网络参数。2.根据权利要求1所述的方法，其特征在于，所述获取目标对象所处游戏环境中的动作信息集合与状态信息集合，包括：根据所述目标对象所处的游戏环境，确定与所述游戏环境相匹配的样本采集方式；根据所确定的样本采集方式，确定与所述游戏环境相匹配的优先级阈值；基于所述与所述游戏环境相匹配的优先级阈值，对所述目标对象所处游戏环境中的动作信息和状态信息分别进行采样，确定所述目标对象所处游戏环境中的动作信息集合与状态信息集合。3.根据权利要求1所述的方法，其特征在于，所述当所述状态信息集合中的状态信息发生变化时，通过执行所述动作信息集合中的动作信息，确定与所述策略生成子网络的初始参数相匹配的奖励参数，包括：当所述状态信息集合中的状态信息发生变化时，通过所述策略生成子网络确定与发生变化的状态信息相匹配的执行策略；根据所确定的执行策略，在所述动作信息集合中确定相对应的动作信息；在所述目标对象所处游戏环境中执行所述动作信息；基于所述动作信息的执行结果，确定与所述策略生成子网络的初始参数相匹配的奖励参数。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：当所述目标对象所处游戏环境为竞速游戏时，确定执行所述动作信息时所述竞速游戏的消耗时间；根据所述竞速游戏的消耗时间，确定所述策略生成子网络的初始参数相匹配的奖励参数。5.根据权利要求1所述的方法，其特征在于，所述基于所述策略生成子网络的初始参数相匹配的奖励参数，对所述策略生成子网络的初始参数进行更新，包括:基于所述策略生成子网络的初始参数相匹配的奖励参数，对所述奖励参数与第一奖励参数阈值进行比较；当确定所述奖励参数达到第一奖励参数阈值时，对所述策略生成子网络的初始参数进行更新。
6.根据权利要求1所述的方法，其特征在于，所述根据所述评估值信号参数，对所述策略生成子网络的初始参数和状态评估子网络的初始参数分别进行更新，包括：基于所述状态评估子网络的初始参数和评估表达函数确定所述确定与状态信息相匹配的评估值信号参数；基于所述评估值信号参数，根据所述策略生成子网络的策略生成函数，确定所述策略生成子网络的更新参数；基于所述策略生成子网络的更新参数，对所述策略生成子网络的初始参数进行更新；基于所述评估值信号参数，确定所述状态评估子网络的更新参数；根据所述状态评估子网络的更新参数对所述状态评估子网络的初始参数进行更新。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：监听...

【专利技术属性】
技术研发人员：杨敬文，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人