【技术实现步骤摘要】
对局任务处理方法、装置、电子设备及存储介质
[0001]本申请涉及互联网信息处理
,更具体地,涉及一种对局任务处理方法、装置、电子设备及存储介质。
技术介绍
[0002]自走棋是一种新兴的游戏品类,其对应的游戏应用能够根据玩家在棋盘上配置的棋子自动控制棋子进行对战,并对对战结果进行显示。
[0003]参与自走棋对战的双方玩家从已拥有的虚拟对象(通常被称为“棋子”)中,根据虚拟对象的等级、属性、技能等信息选择上阵的对战虚拟对象,将对战虚拟对象根据战术布局放置于棋盘中的对战区域中,等到对战阶段时,棋盘上的己方虚拟对象即会与敌方虚拟对象进行自动对战。
[0004]目前,可以根据自走棋对战中每个对局动作的特征数据对神经网络模型进行训练,得到自动对局模型,然后,人工智能可以通过自动对局模型与用户进行对局,从而可以不需要其他真实玩家参与对局,实现离线对局。但是,人工智能通过自动对局模型与用户进行对局时,自动对局模型输出的对局动作较差,导致人工智能的对局水平较低,用户体验较差。
技术实现思路
[000 ...
【技术保护点】
【技术特征摘要】
1.一种对局任务处理方法,其特征在于,所述方法包括:获取目标对局任务中目标对局动作对应的特征数据,所述目标对局任务包括多个对局动作;通过自动对局模型对所述特征数据进行处理,得到所述目标对局动作的下一对局动作的预测动作标签,所述自动对局模型通过样本对局对应的第一状态价值以及第二状态价值,对初始自动对局模型进行训练获得,所述第一状态价值用于表征所述样本对局中第一类别的样本对局动作在所述样本对局全局中的优劣,所述第二状态价值用于表征所述样本对局中第二类别的样本对局动作在所述第二类别的样本对局动作所属样本回合中的优劣;输出与所述预测动作标签对应的对局动作。2.根据权利要求1所述的方法,其特征在于,所述第一状态价值的获取方法包括:获取所述样本对局的最终对局结果;根据所述最终对局结果,确定全局真实奖励值;根据所述全局真实奖励值,确定所述第一类别的样本对局动作的第一状态价值。3.根据权利要求1所述的方法,其特征在于,所述第二状态价值的获取方法包括:获取所述样本对局中每个回合的回合结果;根据样本对局中每个回合的回合结果,确定所述样本对局中每个回合各自的回合真实奖励值;根据所述样本对局中每个回合各自的回合真实奖励值,确定该样本回合中第二类别的样本对局动作的第二状态价值。4.根据权利要求1所述的方法,其特征在于,所述通过自动对局模型对所述特征数据进行处理,得到所述目标对局动作的下一对局动作的预测动作标签,包括:通过所述自动对局模型中的第一网络对所述特征数据进行处理,得到第一动作标签,所述第一网络通过所述第一状态价值对所述初始自动对局模型中的第一初始网络进行训练获得;通过所述自动对局模型中的第二网络对所述特征数据进行处理,得到第二动作标签,所述第二网络通过所述第二状态价值对所述初始自动对局模型中的第二初始网络进行训练获得;根据所述目标对局动作在所述目标对局任务中的对局阶段,确定所述目标对局动作的下一对局动作的类别;若所述目标对局动作的下一对局动作为第一类别的对局动作,将所述第一动作标签作为所述预测动作标签;若所述目标对局动作的下一对局动作为第二类别的对局动作,将所述第二动作标签作为所述预测动作标签。5.根据权利要求4所述的方法,其特征在于,所述第一网络的获取方法包括:获取所述第一类别的样本对局动作的第一状态价值以及所述第一类别的样本对局动作的前一个样本对局动作的特征数据;通过所述第一初始网络,对所述第一类别的样本对局动作的前一个样本对局动作的特征数据进行处理,得到对应所述第一类别的样本对局动作的第一预测状态价值;根据所述第一类别的样本对局动作对应的第一状态价值以及第一预测状态价值,对所述第一初始网络进行训练,得到所述第一网络。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一类别的样本对局动作对应的第一状态价值以及第一预测状态价值,对所述第一初始网络进行训练,得到所述第一网络,包括:对所述第一初始网络中的价值子网络的权重进行重置处理,得到处理后的第一网络;根据所述第一类别的样本对局动作对应的第一状态价值以及第一预测状态价值,对所述处理后的第一网络进行训练,得到所述第一网络。7.根据权利要求5所述的方法,其特征在于,所述通过所述第一初始网络,对所述第一类别的样本对局动作的前一个样本对局动作的特征数据进行处理,得到对应所述第一类别的样本对局动作的第一预测状态价值,包括:将所述第一类别的样本对局动作的前一个样本对局动作的特征数据,输入所述第一初始网络中的编码子网络,得到第一编码特征;将所述第一编码特征输入所述第一初始网络中的时序子网络,得到时序决策特征;将所述时序决策特征输入所述第一初始网络的决策子网络,得到多个第一初始预测动作标签;将所述时序决策特征输入所述第一初始网络的价值子网络,得到每个所述第一初始预测动作标签一一对应的第一初始预测状态价值;将第一初始预测状态价值最大值作为对应所述第一类别的样本对局动作的第一预测状态价值。8.根据权利要求7所述的方法,其特征在于,所述将所述第一类别的样本对局动作的前一个样本对局动作的特征数据,输入所述第一初始网络中的编码子网络,得到第一编码特征,包括:获取所述第一类别的样本对局动作的前一个样本对局动作的特征数据中的公有特征、全局特征以及私有特征;将所述公有特征输入所述第一初始网络中的第一全连接网络,得到第一特征;将所述全局特征输入所述第一初始网络中的第二全连接网络,得到第二特征;将所述私有特征输入所述第一初始网络中的第三全连接网络,得到第三特征;对所述第一特征、所述第二特征以及所述第三特征进行拼接处理,得到第一编码特征。9.根据权利要求4所述的方法,其特征在于,所述第二网络的获取方法包括:获取所述第二类...
【专利技术属性】
技术研发人员:曾宪涵,王伟轩,王亮,付强,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。