一种数据处理方法及相关装置制造方法及图纸

技术编号:39182561 阅读:8 留言:0更新日期:2023-10-27 08:30
本申请公开一种数据处理方法及相关装置,用于人工智能领域。方法包括:通过第一样本阵容对局第二样本阵容的多个样本游戏状态和对应的多个正负奖励训练强化学习模型得到输出概率模型;从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中,获取在预设时间M

【技术实现步骤摘要】
一种数据处理方法及相关装置


[0001]本申请涉及计算机
,特别是涉及一种数据处理方法及相关装置。

技术介绍

[0002]随着实时策略游戏的智能化发展,在阵容对局过程中应用智能对局功能,可智能化地控制对局阵容中游戏对象进行阵容对局。
[0003]相关技术中,通常是按照预设输出策略控制对局阵容中游戏对象进行输出,以智能化地进行阵容对局。
[0004]然而,上述方法中预设输出策略是固定游戏情况下的固定输出策略,并不一定是阵容对局的游戏状态下奖励较高的输出策略,导致智能对局效果较差。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种数据处理方法及相关装置,能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率,以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略,从而智能化地进行阵容对局,提升智能对局效果。
[0006]本申请实施例公开了如下技术方案:一方面,本申请实施例提供一种数据处理方法,所述方法包括:从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中,获取在预设时间M
×
N个目标游戏状态对应的M
×
N个目标输出概率;所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励,训练强化学习模型获得的;所述多个预设游戏状态包括所述M
×
N个目标游戏状态,所述M
×
N个目标游戏状态对应所述预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及所述预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态,M为正整数,N为正整数;对所述M
×
N个目标输出概率进行调整,获得调整后的M
×
N个目标输出概率;根据所述调整后的M
×
N个目标输出概率与预设概率之间的大小关系,确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略。
[0007]另一方面,本申请实施例提供一种数据处理装置,所述装置包括:获取单元、调整单元和确定单元;所述获取单元,用于从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中,获取在预设时间M
×
N个目标游戏状态对应的M
×
N个目标输出概率;所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励,训练强化学习模型获得的;所述多个预设游戏状态包括所述M
×
N个目标游戏状态,所述M
×
N个目标游戏状态对应所述预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及所述预设时间第二目标阵容中N个第二目标对象的N个
对象游戏状态,M为正整数,N为正整数;所述调整单元,用于对所述M
×
N个目标输出概率进行调整,获得调整后的M
×
N个目标输出概率;所述确定单元,用于根据所述调整后的M
×
N个目标输出概率与预设概率之间的大小关系,确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略。
[0008]另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。
[0009]另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
[0010]另一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
[0011]由上述技术方案可以看出,在通过第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励,训练强化学习模型得到输出概率模型的基础上;首先,从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中,获取在预设时间M
×
N个目标游戏状态对应的M
×
N个目标输出概率,其中,多个预设游戏状态包括M
×
N个目标游戏状态,该M
×
N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态,M为正整数,N为正整数;该方式在通过训练强化学习模型得到的输出概率模型,预测出多个预设游戏状态下奖励较高的多个预设输出概率的基础上,能够快速有效地匹配到第一目标阵容对局第二目标阵容在预设时间M
×
N个目标游戏状态下奖励较高的M
×
N个目标输出概率。
[0012]然后,先调整M
×
N个目标输出概率得到调整后的M
×
N个目标输出概率;再通过调整后的M
×
N个目标输出概率与预设概率之间的大小关系,确定第一目标阵容对局第二目标阵容在预设时间的输出策略;该方式进一步调整在预设时间M
×
N个目标游戏状态下奖励较高的M
×
N个目标输出概率,以得到更准确的调整后的M
×
N个目标输出概率,与预设概率进行大小比较,以更准确地确定第一目标阵容对局第二目标阵容在预设时间M
×
N个目标游戏状态下奖励较高的输出策略。基于此,该方法能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率,以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略,从而智能化地进行阵容对局,提升智能对局效果。
附图说明
[0013]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为一种阵容对局的流程图;
图2为本申请实施例提供的一种数据处理方法的系统架构示意图;图3为本申请实施例提供的一种数据处理方法的流程图;图4为本申请实施例提供的一种确定第一目标阵容对局第二目标阵容在预设时间的输出策略的流程图;图5为本申请实施例提供的一种预测多个预设游戏状态对应的多个预设输出概率的流程图;图6为本申请实施例提供的一种通过量子粒子群算法对概率调整策略中预设参数集进行优化得到目标最优参数的流程图;图7为本申请实施例提供的一种应用第一目标阵容对局第二目标阵容在预设时间的输出策略的示意图;图8为本申请实施例提供的一种数据处理装置的结构图;图9为本申请实施例提供的一种服务器的结构图;图10为本申请实施例提供的一种终端的结构图。
具体实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中,获取在预设时间M
×
N个目标游戏状态对应的M
×
N个目标输出概率;所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励,训练强化学习模型获得的;所述多个预设游戏状态包括所述M
×
N个目标游戏状态,所述M
×
N个目标游戏状态对应所述预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及所述预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态,M为正整数,N为正整数;对所述M
×
N个目标输出概率进行调整,获得调整后的M
×
N个目标输出概率;根据所述调整后的M
×
N个目标输出概率与预设概率之间的大小关系,确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略。2.根据权利要求1所述的方法,其特征在于,所述多个预设游戏状态对应的多个预设输出概率的预测步骤,包括:将遍历得到的多个已有游戏对象的多个对象游戏状态作为多个第一游戏状态;将遍历得到的所述多个第一游戏状态作为多个第二游戏状态;对所述多个第一游戏状态和所述多个第二游戏状态进行拼接,获得所述多个预设游戏状态;一个预设游戏状态包括一个第一游戏状态和一个第二游戏状态;根据所述输出概率模型对所述多个预设游戏状态对应的多个输出概率进行预测,获得所述多个预设输出概率。3.根据权利要求1所述的方法,其特征在于,所述多个预设游戏状态对应的多个预设输出概率的预测步骤,包括:获取所述第一目标阵容的多个对象游戏状态和所述第二目标阵容的多个对象游戏状态;对所述第一目标阵容的多个对象游戏状态和所述第二目标阵容的多个对象游戏状态进行拼接,获得所述多个预设游戏状态;一个预设游戏状态包括所述第一目标阵容的一个对象游戏状态和所述第二目标阵容的一个对象游戏状态;根据所述输出概率模型对所述多个预设游戏状态对应的多个输出概率进行预测,获得所述多个预设输出概率。4.根据权利要求1所述的方法,其特征在于,所述输出概率模型的训练步骤,包括:通过所述强化学习模型对所述多个样本游戏状态对应的多个输出概率进行预测,获得多个预测输出概率;根据所述多个预测输出概率和所述多个样本游戏状态对应的多个正负奖励,对所述强化学习模型的模型参数进行调整,获得输出概率模型。5.根据权利要求1所述的方法,其特征在于,所述对所述M
×
N个目标输出概率进行调整,获得调整后的M
×
N个目标输出概率,包括:根据预设粒子群对概率调整策略中预设参数集进行优化,获得目标最优粒子的目标最优参数;所述预设粒子群中每个预设粒子的粒子参数对应所述预设参数集中预设参数;根据所述目标最优参数下概率调整策略,对所述M
×
N个目标输出概率进行调整,获得所述调整后的M
×
N个目标输出概率。
6.根据权利要求5所述的方法,其特征在于,所述根据预设粒子群对概率调整策略中预设参数集进行优化,获得目标最优粒子的目标最优参数,包括:根据所述预设参数集对所述预设粒子群进行初始化,获得所述预设粒子群中多个预设粒子对应的多个粒子参数;根据每个预设粒子的粒子参数下概率调整策略和所述M
×
N个目标输出概率,获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励;记录所述每个预设粒子的粒子参数、以及所述预设粒子的粒子参数下目标奖励;根据所述每个预设粒子记录的多次粒子参数、以及所述多次粒子参数下多次目标奖励,确定所述每个预设粒子对应的局部最优粒子的局部最优参数、以及所述多个预设粒子对应的全局最优粒子的全局最优参数;根据所述每个预设粒子对应的局部最优参数和所述全局最优参数,对所述每个预设粒子的粒子参数进行更新;返回获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励,直至符合收敛条件,将符合所述收敛条件时全局最优粒子的全局最优参数确定为所述目标最优粒子的目标最优参数;所述收敛条件包括迭代次数为最大迭代次数,或,所述收敛条件包括所述全局最优粒子的全局最优参数符合最优取值范围。7.根据权利要求6所述的方法,其特征在于,所述根据所述预设参数集对所述预设粒子群进行初始化,获得所述预设粒子群...

【专利技术属性】
技术研发人员:李旭冬张兴斌罗章龙严明魏学峰黄斌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1