【技术实现步骤摘要】
一种数据处理方法及相关装置
[0001]本申请涉及计算机
,特别是涉及一种数据处理方法及相关装置。
技术介绍
[0002]随着实时策略游戏的智能化发展,在阵容对局过程中应用智能对局功能,可智能化地控制对局阵容中游戏对象进行阵容对局。
[0003]相关技术中,通常是按照预设输出策略控制对局阵容中游戏对象进行输出,以智能化地进行阵容对局。
[0004]然而,上述方法中预设输出策略是固定游戏情况下的固定输出策略,并不一定是阵容对局的游戏状态下奖励较高的输出策略,导致智能对局效果较差。
技术实现思路
[0005]为了解决上述技术问题,本申请提供了一种数据处理方法及相关装置,能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率,以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略,从而智能化地进行阵容对局,提升智能对局效果。
[0006]本申请实施例公开了如下技术方案:一方面,本申请实施例提供一种数据处理方法,所述方法包括:从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中,获取在预设时间M
×
N个目标游戏状态对应的M
×
N个目标输出概率;所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励,训练强化学习模型获得的;所述多个预设游戏状态包括所述M
×
N个目标游戏状态,所述M
×
N个目标游戏状态对应所述预设时间第一目 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中,获取在预设时间M
×
N个目标游戏状态对应的M
×
N个目标输出概率;所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励,训练强化学习模型获得的;所述多个预设游戏状态包括所述M
×
N个目标游戏状态,所述M
×
N个目标游戏状态对应所述预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及所述预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态,M为正整数,N为正整数;对所述M
×
N个目标输出概率进行调整,获得调整后的M
×
N个目标输出概率;根据所述调整后的M
×
N个目标输出概率与预设概率之间的大小关系,确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略。2.根据权利要求1所述的方法,其特征在于,所述多个预设游戏状态对应的多个预设输出概率的预测步骤,包括:将遍历得到的多个已有游戏对象的多个对象游戏状态作为多个第一游戏状态;将遍历得到的所述多个第一游戏状态作为多个第二游戏状态;对所述多个第一游戏状态和所述多个第二游戏状态进行拼接,获得所述多个预设游戏状态;一个预设游戏状态包括一个第一游戏状态和一个第二游戏状态;根据所述输出概率模型对所述多个预设游戏状态对应的多个输出概率进行预测,获得所述多个预设输出概率。3.根据权利要求1所述的方法,其特征在于,所述多个预设游戏状态对应的多个预设输出概率的预测步骤,包括:获取所述第一目标阵容的多个对象游戏状态和所述第二目标阵容的多个对象游戏状态;对所述第一目标阵容的多个对象游戏状态和所述第二目标阵容的多个对象游戏状态进行拼接,获得所述多个预设游戏状态;一个预设游戏状态包括所述第一目标阵容的一个对象游戏状态和所述第二目标阵容的一个对象游戏状态;根据所述输出概率模型对所述多个预设游戏状态对应的多个输出概率进行预测,获得所述多个预设输出概率。4.根据权利要求1所述的方法,其特征在于,所述输出概率模型的训练步骤,包括:通过所述强化学习模型对所述多个样本游戏状态对应的多个输出概率进行预测,获得多个预测输出概率;根据所述多个预测输出概率和所述多个样本游戏状态对应的多个正负奖励,对所述强化学习模型的模型参数进行调整,获得输出概率模型。5.根据权利要求1所述的方法,其特征在于,所述对所述M
×
N个目标输出概率进行调整,获得调整后的M
×
N个目标输出概率,包括:根据预设粒子群对概率调整策略中预设参数集进行优化,获得目标最优粒子的目标最优参数;所述预设粒子群中每个预设粒子的粒子参数对应所述预设参数集中预设参数;根据所述目标最优参数下概率调整策略,对所述M
×
N个目标输出概率进行调整,获得所述调整后的M
×
N个目标输出概率。
6.根据权利要求5所述的方法,其特征在于,所述根据预设粒子群对概率调整策略中预设参数集进行优化,获得目标最优粒子的目标最优参数,包括:根据所述预设参数集对所述预设粒子群进行初始化,获得所述预设粒子群中多个预设粒子对应的多个粒子参数;根据每个预设粒子的粒子参数下概率调整策略和所述M
×
N个目标输出概率,获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励;记录所述每个预设粒子的粒子参数、以及所述预设粒子的粒子参数下目标奖励;根据所述每个预设粒子记录的多次粒子参数、以及所述多次粒子参数下多次目标奖励,确定所述每个预设粒子对应的局部最优粒子的局部最优参数、以及所述多个预设粒子对应的全局最优粒子的全局最优参数;根据所述每个预设粒子对应的局部最优参数和所述全局最优参数,对所述每个预设粒子的粒子参数进行更新;返回获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励,直至符合收敛条件,将符合所述收敛条件时全局最优粒子的全局最优参数确定为所述目标最优粒子的目标最优参数;所述收敛条件包括迭代次数为最大迭代次数,或,所述收敛条件包括所述全局最优粒子的全局最优参数符合最优取值范围。7.根据权利要求6所述的方法,其特征在于,所述根据所述预设参数集对所述预设粒子群进行初始化,获得所述预设粒子群...
【专利技术属性】
技术研发人员:李旭冬,张兴斌,罗章龙,严明,魏学峰,黄斌,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。