数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:18452820 阅读:23 留言:0更新日期:2018-07-18 10:56
本发明专利技术涉及一种数据处理方法、装置、计算机设备和存储介质,所述方法包括:获取待控制虚拟对象对应的第一当前状态信息;根据所述第一当前状态信息进行行为决策,得到所述待控制虚拟对象对应的目标行为;获取所述待控制虚拟对象对应的第二当前状态信息,将所述第二当前状态信息输入到已训练的操作选择模型中,得到目标操作,所述目标操作是从所述目标行为对应的候选操作集合中筛选得到的,所述候选操作集合包括至少两个候选操作;控制所述待控制虚拟对象执行所述目标操作。上述方法可以减少数据处理时间,提高数据处理效率。

Data processing method, device, computer equipment and storage medium

The present invention relates to a data processing method, device, computer equipment and storage medium. The method includes: obtaining the first current state information corresponding to the virtual object to be controlled, making a behavior decision according to the first current state information, obtaining the target behavior corresponding to the virtual opposite image to be controlled, and getting the waiting time. Control the second current state information corresponding to the virtual object, input the second current state information into the trained operation selection model, and get the target operation. The target operation is selected from the candidate operation set corresponding to the target behavior, and the candidate operation set includes at least two candidate operations. Control the virtual object to be controlled to execute the target operation. The above method can reduce data processing time and improve data processing efficiency.

【技术实现步骤摘要】
数据处理方法、装置、计算机设备和存储介质
本专利技术涉及数据处理领域,特别是涉及数据处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的不断发展,游戏逐渐成为人们热衷的娱乐节目,例如,用户可以通过多人在线战斗竞技场游戏(MultiplayerOnlineBattleArena,MOBA)与其他游戏玩家进行竞技。为了增加游戏的刺激性以及趣味性,出现了越来越多的实时对战玩法,当通过人工智能进行游戏时,例如在玩家掉线时通过游戏机器人进行暂时托管或者利用人工智能模拟真实玩家进行游戏对抗时,需要对游戏数据进行进一步处理得到决策结果,由于游戏玩法多样,候选决策结果多,因此数据处理时间长,数据处理效率低。
技术实现思路
基于此,有必要针对上述的问题,提供一种数据处理方法、装置、计算机设备和存储介质,可通过待控制虚拟对象对应的第一当前状态信息进行行为决策,得到目标行为后再根据待控制虚拟对象对应的第二当前状态信息以及操作选择模型得到目标行为对应的目标操作,由于先利用第一当前状态信息进行大局观层面的行为的决策,再利用第二当前状态信息以及已训练的模型得到目标行为对应的具体操作,因此可以减少利用机器模型进行决策时候选决策结果的数量,减少了数据处理时间,提高了数据处理效率。一种数据处理方法,所述方法包括:获取待控制虚拟对象对应的第一当前状态信息;根据所述第一当前状态信息进行行为决策,得到所述待控制虚拟对象对应的目标行为;获取所述待控制虚拟对象对应的第二当前状态信息,将所述第二当前状态信息输入到已训练的操作选择模型中,得到目标操作,所述目标操作是从所述目标行为对应的候选操作集合中筛选得到的,所述候选操作集合包括至少两个候选操作;控制所述待控制虚拟对象执行所述目标操作。一种数据处理装置,所述装置包括:第一状态获取模块,用于获取待控制虚拟对象对应的第一当前状态信息;行为决策模块,用于根据所述第一当前状态信息进行行为决策,得到所述待控制虚拟对象对应的目标行为;目标操作得到模块,用于获取所述待控制虚拟对象对应的第二当前状态信息,将所述第二当前状态信息输入到已训练的操作选择模型中,得到目标操作,所述目标操作是从所述目标行为对应的候选操作集合中筛选得到的,所述候选操作集合包括至少两个候选操作;控制模块,用于控制所述待控制虚拟对象执行所述目标操作。在其中一个实施例中,所述目标操作得到模块包括:图像帧获取单元,用于获取所述待控制虚拟对象的当前图像帧以及按照显示顺序获取所述当前图像帧之前的历史图像帧;集合组成单元,用于将所述当前图像帧以及所述历史图像帧组成当前图像帧集合,作为所述第二当前状态信息。在其中一个实施例中,所述目标操作得到模块包括:图像特征得到单元,用于将所述当前图像帧集合输入到所述图像特征提取层中,得到对应的图像内容特征;非图像信息获取单元,用于获取所述待控制虚拟对象的非图像帧状态信息;目标操作得到单元,用于将所述待控制虚拟对象的非图像帧状态信息以及所述图像内容特征输入到所述全连接层中,得到所述目标操作。在其中一个实施例中,所述装置还包括模型训练模块,包括:训练信息获取单元,用于获取当前操作选择模型,获取所述待控制虚拟对象对应的当前训练状态信息;当前操作获取单元,用于从所述候选操作集合中获取当前操作,控制所述待控制虚拟对象执行所述当前操作,得到执行所述当前操作后所述待控制虚拟对象对应的更新后状态信息;调整单元,用于根据所述更新后状态信息以及所述当前训练状态信息计算得到激励反馈数据,根据所述激励反馈数据调整所述当前操作选择模型中的模型参数;返回单元,用于将所述更新状态信息作为所述当前训练状态信息,返回获取所述当前训练状态信息的步骤,直至所述当前操作选择模型收敛。在其中一个实施例中,所述调整单元用于:根据所述当前训练状态信息以及所述当前操作选择模型计算得到所述当前操作对应的第二操作评价值;根据所述更新后状态信息以及所述当前操作选择模型计算得到所述候选操作集合中各个候选操作的候选操作评价值;根据所述各个候选操作评价值中的最大操作评价值以及所述激励反馈数据得到期望操作评价值;根据所述第二操作评价值以及所述期望操作评价值调整所述当前操作选择模型中的模型参数。在其中一个实施例中,所述调整单元用于:获取所述待控制虚拟对象的当前训练状态信息以及所述待控制虚拟对象的更新后状态信息,根据所述待控制虚拟对象的当前训练状态信息以及更新后状态信息得到第一状态变化信息,根据所述第一状态变化信息得到第一激励反馈数据;获取与所述待控制虚拟对象进行交互操作的交互虚拟对象,获取所述交互虚拟对象的当前训练状态信息以及所述交互虚拟对象的更新后状态信息,根据所述交互虚拟对象的当前训练状态信息以及更新后状态信息得到第二状态变化信息,根据所述第二状态变化信息得到第二激励反馈数据;根据所述第一激励反馈数据以及所述第二激励反馈数据得到所述激励反馈数据。在其中一个实施例中,所述当前操作获取单元用于:被选中率获取单元,用于获取随机操作的当前被选中率;数值范围设置单元,用于根据所述随机操作的当前被选中率设置随机操作对应的第一数值范围以及模型操作对应的第二数值范围;随机数生成单元,用于生成在所述第一数值范围或所述第二数值范围内的随机数;随机操作选择单元,用于当所述随机数在所述第一数值范围内时,从所述候选操作集合中随机选择候选操作作为所述当前操作;模型操作筛选单元,用于当所述随机数在所述第二数值范围时,将所述当前训练状态信息输入到所述当前操作选择模型中,计算得到所述候选操作集合中各个候选操作的第三操作评价值,根据所述各个候选操作的第三操作评价值从所述候选操作集合中筛选出所述当前操作。在其中一个实施例中,所述目标操作得到模块包括:第一价值得到单元,用于将所述第二当前状态信息输入到已训练的操作选择模型中,得到所述目标行为对应的候选操作集合中各个候选操作的第一操作评价值;目标操作筛选单元,用于根据所述各个候选操作的第一操作评价值从所述候选操作中筛选出目标操作。在其中一个实施例中,所述行为决策模块包括:行为树模型获取单元,用于获取预先设置的行为树模型;遍历单元,用于根据所述第一当前状态信息在所述行为树模型中进行遍历,得到符合所述第一当前状态信息的目标行为。在其中一个实施例中,所述获取待控制虚拟对象对应的第一当前状态信息的步骤之前包括:托管请求接收模块,用于接收客户端发送的游戏托管请求;所述第一状态获取模块用于:根据所述游戏托管请求获取所述客户端对应的待控制虚拟对象的第一当前状态信息;所述控制模块用于:将所述目标操作对应的操作指令发送到所述客户端中,所述目标操作对应的操作指令用于指示所述客户端对应的待控制虚拟对象执行所述目标操作。在其中一个实施例中,所述第一当前状态信息包括所述待控制虚拟对象的当前状态信息、与所述待控制虚拟对象进行交互操作的交互虚拟对象的当前状态信息、所述待控制虚拟对象与所述交互虚拟对象之间的当前状态信息、以及所述待控制虚拟对象所在的环境对应的当前环境状态信息中的至少一种。在其中一个实施例中,所述第一状态获取模块用于:获取所述目标虚拟对象组合对应的第一当前状态信息集合,所述第一当前状态信息集合包括所述各个待控制虚拟对象对应的第一当前状态信息;所述行为决策模块用于:根据本文档来自技高网...

【技术保护点】
1.一种数据处理方法,所述方法包括:获取待控制虚拟对象对应的第一当前状态信息;根据所述第一当前状态信息进行行为决策,得到所述待控制虚拟对象对应的目标行为;获取所述待控制虚拟对象对应的第二当前状态信息,将所述第二当前状态信息输入到已训练的操作选择模型中,得到目标操作,所述目标操作是从所述目标行为对应的候选操作集合中筛选得到的,所述候选操作集合包括至少两个候选操作;控制所述待控制虚拟对象执行所述目标操作。

【技术特征摘要】
1.一种数据处理方法,所述方法包括:获取待控制虚拟对象对应的第一当前状态信息;根据所述第一当前状态信息进行行为决策,得到所述待控制虚拟对象对应的目标行为;获取所述待控制虚拟对象对应的第二当前状态信息,将所述第二当前状态信息输入到已训练的操作选择模型中,得到目标操作,所述目标操作是从所述目标行为对应的候选操作集合中筛选得到的,所述候选操作集合包括至少两个候选操作;控制所述待控制虚拟对象执行所述目标操作。2.根据权利要求1所述的方法,其特征在于,所述获取所述待控制虚拟对象对应的第二当前状态信息的步骤包括:获取所述待控制虚拟对象的当前图像帧以及按照显示顺序获取所述当前图像帧之前的历史图像帧;将所述当前图像帧以及所述历史图像帧组成当前图像帧集合,作为所述第二当前状态信息。3.根据权利要求2所述的方法,其特征在于,所述第二当前状态信息还包括非图像帧状态信息,所述操作选择模型包括图像特征提取层以及全连接层,所述获取所述待控制虚拟对象对应的第二当前状态信息,将所述第二当前状态信息输入到已训练的操作选择模型中,得到目标操作的步骤包括:将所述当前图像帧集合输入到所述图像特征提取层中,得到对应的图像内容特征;获取所述待控制虚拟对象的非图像帧状态信息;将所述待控制虚拟对象的非图像帧状态信息以及所述图像内容特征输入到所述全连接层中,得到所述目标操作。4.根据权利要求1所述的方法,其特征在于,所述操作选择模型的训练步骤包括:获取当前操作选择模型,获取所述待控制虚拟对象对应的当前训练状态信息;从所述候选操作集合中获取当前操作,控制所述待控制虚拟对象执行所述当前操作,得到执行所述当前操作后所述待控制虚拟对象对应的更新后状态信息;根据所述更新后状态信息以及所述当前训练状态信息计算得到激励反馈数据,根据所述激励反馈数据调整所述当前操作选择模型中的模型参数;将所述更新状态信息作为所述当前训练状态信息,返回获取所述当前训练状态信息的步骤,直至所述当前操作选择模型收敛。5.根据权利要求4所述的方法,其特征在于,所述根据所述更新后状态信息以及所述当前训练状态信息计算得到激励反馈数据,根据所述激励反馈数据调整所述当前操作选择模型中的模型参数的步骤包括:根据所述当前训练状态信息以及所述当前操作选择模型计算得到所述当前操作对应的第二操作评价值;根据所述更新后状态信息以及所述当前操作选择模型计算得到所述候选操作集合中各个候选操作的候选操作评价值;根据所述各个候选操作评价值中的最大操作评价值以及所述激励反馈数据得到期望操作评价值;根据所述第二操作评价值以及所述期望操作评价值调整所述当前操作选择模型中的模型参数。6.根据权利要求4所述的方法,其特征在于,所述根据所述更新后状态信息以及所述当前训练状态信息计算得到激励反馈数据的步骤包括:获取所述待控制虚拟对象的当前训练状态信息以及所述待控制虚拟对象的更新后状态信息,根据所述待控制虚拟对象的当前训练状态信息以及更新后状态信息得到第一状态变化信息,根据所述第一状态变化信息得到第一激励反馈数据;获取与所述待控制虚拟对象进行交互操作的交互虚拟对象,获取所述交互虚拟对象的当前训练状态信息以及所述交互虚拟对象的更新后状态信息,根据所述交互虚拟对象的当前训练状态信息以及更新后状态信息得到第二状态变化信息,根据所述第二状态变化信息得到第二激励反馈数据;根据所述第一激励反馈数据以及所述第二激励反馈数据得到所述激励反馈数据。7.根据权利要求4所述的方法,其特征在于,所述从所述候选操作集合中获取当前操作的步骤包括:获取随机操作的当前被选中率;根据所述随机操作的当前被选中率设置随机操作对应的第一数值范围以及模型操作对应的第二数值范围;生成在所述第一数值范围或所述第二数值范围内的随机数;当所述随机数在所述第一数值范围内时,从所述候选操作集合中随机选择候选操作作为所述当前操作;当所述随机数在所述第二数值范围时,将所述当前训练状态信息输入到所述当...

【专利技术属性】
技术研发人员:杨夏周大军荆彦青
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1