数据处理方法和装置及电子设备制造方法及图纸

技术编号:33840927 阅读:17 留言:0更新日期:2022-06-18 10:23
本公开关于一种数据处理方法和装置及电子设备。其中,该方法包括:获取博弈对局在当前时刻的状态特征,以及状态特征对应的多种待执行操作;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对状态特征和多种待执行操作进行处理,预测得到多种待执行操作的输出概率值;基于多种待执行操作的输出概率值,确定多种待执行操作中的目标操作。本公开实施例实现通过较低成本即可将概率预测模型扩展到不同博弈对局的决策场景中,达到降低了内存占用量,提高了概率预测模型的通用性,降低了概率预测模型的扩展成本的效果,进而了解决相关技术中数据处理方法成本较高且通用性较差的问题。较高且通用性较差的问题。较高且通用性较差的问题。

【技术实现步骤摘要】
数据处理方法和装置及电子设备


[0001]本公开涉及人工智能领域,尤其涉及一种数据处理方法和装置及电子设备。

技术介绍

[0002]目前,深度学习和强化学习在AI(Artificial Intelligence,人工智能)领域中广泛应用。为了实现在博弈对局中提供AI支持,相关技术中提供了一种处理方案,可以人为对所有操作进行排序,在进行AI决策时,从优先级最高的操作开始,通过一个深度神经网络判断是否执行该操作,如果是,则执行该操作,如果否,则继续判断剩余操作中优先级最高的操作,依次类推,直至所有操作完成判断。
[0003]但是,上述方案需要通过不同的深度神经网络实现不同操作的判断过程,导致内存占用量较大。另外,不同博弈对局的决策场景中,可执行操作的数量、逻辑和要求往往不同,因此,需要针对不同博弈对局的决策场景训练不同的网络模型,导致该方案扩展性较差,迁移到不同博弈对局的决策场景的成本较高。

技术实现思路

[0004]本公开提供一种数据处理方法和装置及电子设备,以至少解决相关技术中数据处理方法成本较高且通用性较差的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种数据处理方法,包括:获取博弈对局在当前时刻的状态特征,以及状态特征对应的多种待执行操作,其中,状态特征用于表征博弈对局在当前时刻的多种博弈信息,多种待执行操作为基于状态特征从博弈对局的操作集合中确定出的操作;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对状态特征和多种待执行操作进行处理,预测得到多种待执行操作的输出概率值,其中,关联关系用于表征不同博弈信息对不同待执行操作的重要程度;基于多种待执行操作的输出概率值,确定多种待执行操作中的目标操作。
[0006]可选地,基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对状态特征和多种待执行操作进行处理,预测得到多种待执行操作的输出概率值的步骤包括:对状态特征进行特征提取,得到深层状态特征;对多种待执行操作进行编码处理,得到操作特征,其中,操作特征用于表征操作集合中所有操作;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,确定操作集合中每种操作的第一得分值;对操作集合中每种操作的第一得分值进行归一化处理,得到多种待执行操作的输出概率值。
[0007]可选地,对操作集合中每种操作的第一得分值进行归一化处理,得到多种待执行操作的输出概率值的步骤包括:对操作集合中每种操作的第一得分值进行掩码处理,得到操作集合中每种操作的第二得分值,其中,操作集合中禁止确定为目标操作的操作的第二得分值为预设值,且对预设值进行归一化处理后得到的输出概率值为0;对操作集合中每种操作的第二得分值进行归一化处理,得到多种待执行操作的输出概率值。
[0008]可选地,对状态特征进行特征提取,得到深层状态特征的步骤包括:对状态特征进行特征提取,并调整状态特征的通道数,得到第一状态特征;对第一状态特征进行特征提取,得到第二状态特征;对第二状态特征进行降维处理,得到深层状态特征。
[0009]可选地,基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,确定操作集合中每种操作的第一得分值的步骤包括:将深层状态特征和操作特征进行拼接,得到拼接后的特征;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,确定拼接后的特征的权重值;基于拼接后的特征以及拼接后的特征的权重值,确定操作集合中每种操作的第一得分值。
[0010]可选地,基于当前时刻对应的操作规则确定操作集合中每种操作。
[0011]根据本公开实施例的第二方面,提供一种数据处理方法,包括:响应检测到的第一操作信号,基于预先构建的博弈对局中的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对博弈对局中在当前时刻的状态特征以及状态特征对应的多种待执行操作进行处理,预测得到多种待执行操作的输出概率值,其中,状态特征用于表征博弈对局在当前时刻的多种博弈信息,多种待执行操作为基于状态特征从博弈对局的操作集合中确定出的操作,关联关系用于表征不同博弈信息对不同待执行操作的重要程度;输出多种待执行操作中的目标操作,其中,目标操作是基于多种待执行操作的输出概率值确定的;响应检测到的第二操作信号,执行目标操作。
[0012]可选地,基于预先构建的博弈对局中的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对博弈对局中在当前时刻的状态特征以及状态特征对应的多种待执行操作进行处理,预测得到多种待执行操作的输出概率值的步骤包括:对状态特征进行特征提取,得到深层状态特征;对多种待执行操作进行编码处理,得到操作特征,其中,操作特征用于表征操作集合中所有操作;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,确定操作集合中每种操作的第一得分值;对操作集合中每种操作的第一得分值进行归一化处理,得到多种待执行操作的输出概率值。
[0013]可选地,对操作集合中每种操作的第一得分值进行归一化处理,得到多种待执行操作的输出概率值的步骤包括:对操作集合中每种操作的第一得分值进行掩码处理,得到操作集合中每种操作的第二得分值,其中,操作集合中禁止确定为目标操作的操作的第二得分值为预设值,且对预设值进行归一化处理后得到的输出概率值为0;对操作集合中每种操作的第二得分值进行归一化处理,得到多种待执行操作的输出概率值。
[0014]根据本公开实施例的第三方面,提供一种数据处理方法,包括:在博弈对局对应的全局任务执行过程中,获取博弈对局在当前时刻的状态特征,以及状态特征对应的多种待执行操作,其中,状态特征用于表征博弈对局在当前时刻的多种博弈信息,每种待执行操作对应于全局任务中的一个任务步骤,多种待执行操作为基于状态特征从博弈对局的操作集合中确定出的操作;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对状态特征和多种待执行操作进行处理,预测得到多种待执行操作的输出概率值,其中,关联关系用于表征不同博弈信息对不同待执行操作的重要程度;基于多种待执行操作的输出概率值,执行多种待执行操作中目标操作对应的任务步骤。
[0015]可选地,基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对状态特征和多种待执行操作进行处理,预测得到多种待执行操作的输出概
率值的步骤包括:对状态特征进行特征提取,得到深层状态特征;对多种待执行操作进行编码处理,得到操作特征,其中,操作特征用于表征操作集合中所有操作;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,确定操作集合中每种操作的第一得分值;对操作集合中每种操作的第一得分值进行归一化处理,得到多种待执行操作的输出概率值。
[0016]可选地,对操作集合中每种操作的第一得分值进行归一化处理,得到多种待执行操作的输出概率值的步骤包括:对操作集合中每种操作的第一得分值进行掩码处理,得到操作集合中每种操作的第二得分值,其中,操作集合中禁止确定为目标操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取博弈对局在当前时刻的状态特征,以及所述状态特征对应的多种待执行操作,其中,所述状态特征用于表征所述博弈对局在所述当前时刻的多种博弈信息,所述多种待执行操作为基于所述状态特征从所述博弈对局的操作集合中确定出的操作;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对所述状态特征和所述多种待执行操作进行处理,预测得到所述多种待执行操作的输出概率值,其中,所述关联关系用于表征所述不同博弈信息对所述不同待执行操作的重要程度;基于所述多种待执行操作的输出概率值,确定所述多种待执行操作中的目标操作。2.根据权利要求1所述的数据处理方法,其特征在于,所述基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对所述状态特征和所述多种待执行操作进行处理,预测得到所述多种待执行操作的输出概率值的步骤包括:对所述状态特征进行特征提取,得到深层状态特征;对所述多种待执行操作进行编码处理,得到操作特征,其中,所述操作特征用于表征所述操作集合中所有操作;基于所述预先构建的不同博弈信息与不同待执行操作之间的关联关系,确定所述操作集合中每种操作的第一得分值;对所述操作集合中每种操作的第一得分值进行归一化处理,得到所述多种待执行操作的输出概率值。3.根据权利要求2所述的数据处理方法,其特征在于,所述对所述操作集合中每种操作的第一得分值进行归一化处理,得到所述多种待执行操作的输出概率值的步骤包括:对所述操作集合中每种操作的第一得分值进行掩码处理,得到所述操作集合中每种操作的第二得分值,其中,所述操作集合中禁止确定为所述目标操作的操作的第二得分值为预设值,且对所述预设值进行归一化处理后得到的输出概率值为0;对所述操作集合中每种操作的第二得分值进行归一化处理,得到所述多种待执行操作的输出概率值。4.一种数据处理方法,其特征在于,包括:响应检测到的第一操作信号,基于预先构建的博弈对局中的不同博弈信息与不同待执行操作之间的关联关系,利用概率预测模型对所述博弈对局中在当前时刻的状态特征以及所述状态特征对应的多种待执行操作进行处理,预测得到所述多种待执行操作的输出概率值,其中,所述状态特征用于表征所述博弈对局在所述当前时刻的多种博弈信息,所述多种待执行操作为基于所述状态特征从所述博弈对局的操作集合中确定出的操作,所述关联关系用于表征所述不同博弈信息对所述不同待执行操作的重要程度;输出所述多种待执行操作中的目标操作,其中,所述目标操作是基于所述多种待执行操作的输出概率值确定的;响应检测到的第二操作信号,执行所述目标操作。5.一种数据处理方法,其特征在于,包括:在博弈对局对应的全局任务执行过程中,获取所述博弈对局在当前时刻的状态特征,以及所述状态特征对应的多种待执行操作,其中,所述状态特征用于表征所述博弈对局在所述当前时刻的多种博弈信息,每种待执行操作对应于所述全局任务中的一个任务步骤,
所述多种待执行操作为基于所述状态特征从所述博弈对局的操作集合中确定出的操作;基于预先构建的不同博弈信息与不同待执行操作之间的关联关系,利...

【专利技术属性】
技术研发人员:陈之瀚杨靖航孙颖凯
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1