战斗策略生成方法及装置制造方法及图纸

技术编号：24062065 阅读：36 留言：0更新日期：2020-05-08 23:04

本发明专利技术提供战斗策略生成方法及装置，涉及战斗策略生成领域。该方法包括：针对更新策略非玩家角色绑定近端策略优化算法并搭建近端策略优化算法的神经网络结构；计算当前策略神经网络的损失值，更新当前策略神经网络的参数，复制当前策略神经网络的参数替换目标策略神经网络的参数；根据目标策略神经网络的参数使更新策略非玩家角色与玩家角色进行对抗，并根据与玩家角色对抗产生的战斗数据对神经网络结构的神经网络参数进行更新，为更新策略非玩家角色生成新的战斗策略。本发明专利技术实施例的战斗策略生成方法及装置通过针对更新策略非玩家角色绑定近端策略优化算法，最终生成战斗策略，从而达到了能够根据具体情况输出离散动作或连续动作的技术效果。

Method and device of combat strategy generation

全部详细技术资料下载

【技术实现步骤摘要】
战斗策略生成方法及装置
本专利技术涉及战斗策略生成
，尤其是涉及一种战斗策略生成方法及装置。
技术介绍
目前，在动作类的三维游戏中，都是利用基于深度学习网络的非玩家战斗策略学习方法来自动生成玩家角色战斗策略，虽然该方法使用血量差作为动作奖励，并且能够自动生成玩家角色战斗策略，但是其输出动作只能是离散动作，而不能是连续动作。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种战斗策略生成方法及装置，以改善输出动作只能是离散动作，而不能是连续动作的技术问题。第一方面，本专利技术实施例提供了一种战斗策略生成方法，应用于游戏客户端，所述方法包括以下步骤：针对更新策略非玩家角色绑定近端策略优化算法，并搭建所述近端策略优化算法的神经网络结构；其中，所述神经网络结构包括目标策略神经网络和当前策略神经网络；计算所述当前策略神经网络的损失值，更新所述当前策略神经网络的参数，复制所述当前策略神经网络的参数替换所述目标策略神经网络的参数；根据所述目标策略神经网络的参数使所述更新策略非玩家...

【技术保护点】
1.一种战斗策略生成方法，其特征在于，应用于游戏客户端，所述方法包括以下步骤：/n针对更新策略非玩家角色绑定近端策略优化算法，并搭建所述近端策略优化算法的神经网络结构；其中，所述神经网络结构包括目标策略神经网络和当前策略神经网络；/n计算所述当前策略神经网络的损失值，更新所述当前策略神经网络的参数，复制所述当前策略神经网络的参数替换所述目标策略神经网络的参数；/n根据所述目标策略神经网络的参数使所述更新策略非玩家角色与玩家角色进行对抗，并根据与所述玩家角色对抗产生的战斗数据对所述神经网络结构的神经网络参数进行更新，为所述更新策略非玩家角色生成新的战斗策略；其中，所述战斗数据包括所述更新策略非玩...

【技术特征摘要】
1.一种战斗策略生成方法，其特征在于，应用于游戏客户端，所述方法包括以下步骤：
针对更新策略非玩家角色绑定近端策略优化算法，并搭建所述近端策略优化算法的神经网络结构；其中，所述神经网络结构包括目标策略神经网络和当前策略神经网络；
计算所述当前策略神经网络的损失值，更新所述当前策略神经网络的参数，复制所述当前策略神经网络的参数替换所述目标策略神经网络的参数；
根据所述目标策略神经网络的参数使所述更新策略非玩家角色与玩家角色进行对抗，并根据与所述玩家角色对抗产生的战斗数据对所述神经网络结构的神经网络参数进行更新，为所述更新策略非玩家角色生成新的战斗策略；其中，所述战斗数据包括所述更新策略非玩家角色的被击杀次数、使玩家角色损失的血量。

2.根据权利要求1所述的方法，其特征在于，所述神经网络结构还包括值估计神经网络；
所述计算所述当前策略神经网络的损失值，更新所述当前策略神经网络的参数的步骤，包括：
计算所述值估计神经网络的损失值；
将所述值估计神经网络的损失值与所述当前策略神经网络和所述目标策略神经网络的动作概率比相乘，获取所述当前策略神经网络的损失值；
根据所获取的当前策略神经网络的损失值来更新所述当前策略神经网络的参数。

3.根据权利要求2所述的方法，其特征在于，将状态向量输入至所述当前策略神经网络，获取所述当前策略神经网络的动作概率值；其中，所述状态向量中包含有更新策略非玩家角色的坐标信息、技能信息、生命值信息；
将所述状态向量输入至所述目标策略神经网络，获取所述目标策略神经网络的动作概率值；
将所述当前策略神经网络和所述目标策略神经网络的动作概率值除以所述目标策略神经网络的动作概率值，获取所述当前策略神经网络和所述目标策略神经网络的动作概率比。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标策略神经网络的参数使所述更新策略非玩家角色与玩家角色进行对抗，并根据与所述玩家角色对抗产生的战斗数据对所述神经网络结构的神经网络参数进行更新，为所述更新策略非玩家角色生成新的战斗策略的步骤，包括：
根据所述目标策略神经网络的参数使所述更新策略非玩家角色与玩家角色进行对抗，获取所述玩家角色对抗产生的战斗数据；
将所述战斗数据上传至服务器，所述服务器根据所述战斗数据对所述神经网络结构进行训练更新，为所述更新策略非玩家角色生成新的战斗策略。

5.根据权利要求1所...

【专利技术属性】
技术研发人员：何纬朝，
申请(专利权)人：北京像素软件科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人