【技术实现步骤摘要】
训练游戏AI的方法、系统、存储介质及计算机设备
本申请涉及计算机
,尤其涉及人工智能领域,具体涉及一种训练游戏AI的方法、系统、存储介质及计算机设备。
技术介绍
游戏AI(ArtificialIntelligence,人工智能),是竞技类游戏中由计算机程序控制的拟人化角色。在设计或控制游戏AI时,并不是以其在游戏对战中胜利为单一目的。因此,广义上讲,只要在游戏过程中,能够给予游戏玩家以某种智能程度的错觉,使得游戏更能引人入胜、更具有挑战性和/或更好玩的拟人化角色都可以称为游戏AI。游戏AI并不是一开始就具有高度智能,游戏AI的智能程度依赖于训练。现有训练游戏AI的方法通常有如下步骤完成:1)在多个线程上创建游戏AI的训练环境;2)由训练程序控制每个训练环境中的游戏AI,即对游戏AI发出指令,游戏AI在训练环境中执行这些指令;3)根据训练环境对指令执行结果的反馈,训练程序学习并更新算法;4)重复步骤1)至3),直至某个线程上的游戏AI获得胜利,重置该线程的训练环境,开始新一轮的训练。然而,上述现有训练游戏 ...
【技术保护点】
1.一种训练游戏AI的方法,应用于服务器集群,所述服务器集群包括多台服务器,在所述多台服务器上运行着一个主进程和至少两个从进程,其特征在于,每个所述从进程分布于多台服务器中的一台服务器,所述主进程只存在于所述多台服务器中的一台服务器,所述方法包括:/n所述主进程基于每次训练后的神经网络,向至少两个所述从进程发送用于指示游戏AI-j与所述游戏AI-j所处训练环境进行交互的动作指令,所述游戏AI-j为任意一个所述从进程对应训练环境中的一个游戏AI;/n所述从进程向所述游戏AI-j发送所述动作指令,以指示所述游戏AI-j执行与所述游戏AI-j所处训练环境的交互;/n所述从进程向所 ...
【技术特征摘要】
1.一种训练游戏AI的方法,应用于服务器集群,所述服务器集群包括多台服务器,在所述多台服务器上运行着一个主进程和至少两个从进程,其特征在于,每个所述从进程分布于多台服务器中的一台服务器,所述主进程只存在于所述多台服务器中的一台服务器,所述方法包括:
所述主进程基于每次训练后的神经网络,向至少两个所述从进程发送用于指示游戏AI-j与所述游戏AI-j所处训练环境进行交互的动作指令,所述游戏AI-j为任意一个所述从进程对应训练环境中的一个游戏AI;
所述从进程向所述游戏AI-j发送所述动作指令,以指示所述游戏AI-j执行与所述游戏AI-j所处训练环境的交互;
所述从进程向所述主进程反馈所述交互的结果数据,所述交互的结果数据包括所述交互的标识、所述游戏AI-j执行所述交互后所述游戏AI-j获取的收益和所述游戏AI-j执行所述交互后所述游戏AI-j所处训练环境的状态;
所述主进程根据存储的训练数据集,持续对所述神经网络进行训练,直至预设条件得到满足后停止对所述神经网络的训练,所述训练数据集包括所有游戏AI与其所处训练环境交互的历史结果数据以及所述游戏AI-j与所述游戏AI-j所处训练环境交互的结果数据。
2.如权利要求1所述训练游戏AI的方法,其特征在于,所述主进程根据存储的训练数据集,持续对所述神经网络进行训练,包括:
根据所述训练数据集,求解所述神经网络的状态变更函数和收益函数;
根据所述神经网络的状态变更函数和收益函数,采用强化学习算法求解所述神经网络的最佳状态估计值函数;
基于所述最佳状态估计值函数,修改所述训练数据集中游戏AI获取的收益;
将所述修改后的训练数据集用于对所述神经网络进行训练。
3.如权利要求2所述训练游戏AI的方法,其特征在于,所述基于所述最佳状态估计函数,修改所述训练数据集中游戏AI获取的收益,包括:
根据游戏AI所处训练环境为下一状态时所述神经网络的最佳状态估计值和游戏AI所处训练环境为当前状态时所述神经网络的最佳状态估计值,计算所述两个最佳状态估计值的偏差;
将所述游戏AI获取的收益与所述偏差求和,得到所述训练数据集中修改后的游戏AI获取的收益。
4.如权利要求1所述训练游戏AI的方法,其特征在于,所述神经网络包括行为选择网络和价值评估网络,所述主进程根据存储的训练数据集,持续对所述神经网络进行训练,包括:
从所述训练数据集中随机选择一批训练数据,训练所述价值评估网络,所述训练数据包括游戏AI在即将执行所述行为选择网络输出的游戏AI与游戏AI所处训练环境的交互后获取的收益;
基于所述价值评估网络输出的评价值,训练所述行为选择网络。
5.如权利要求4所述训练游戏AI的方法,其特征在于,所述训练...
【专利技术属性】
技术研发人员:陈文龙,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。