数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：18452820 阅读：23 留言：0更新日期：2018-07-18 10:56

本发明专利技术涉及一种数据处理方法、装置、计算机设备和存储介质，所述方法包括：获取待控制虚拟对象对应的第一当前状态信息；根据所述第一当前状态信息进行行为决策，得到所述待控制虚拟对象对应的目标行为；获取所述待控制虚拟对象对应的第二当前状态信息，将所述第二当前状态信息输入到已训练的操作选择模型中，得到目标操作，所述目标操作是从所述目标行为对应的候选操作集合中筛选得到的，所述候选操作集合包括至少两个候选操作；控制所述待控制虚拟对象执行所述目标操作。上述方法可以减少数据处理时间，提高数据处理效率。

Data processing method, device, computer equipment and storage medium

The present invention relates to a data processing method, device, computer equipment and storage medium. The method includes: obtaining the first current state information corresponding to the virtual object to be controlled, making a behavior decision according to the first current state information, obtaining the target behavior corresponding to the virtual opposite image to be controlled, and getting the waiting time. Control the second current state information corresponding to the virtual object, input the second current state information into the trained operation selection model, and get the target operation. The target operation is selected from the candidate operation set corresponding to the target behavior, and the candidate operation set includes at least two candidate operations. Control the virtual object to be controlled to execute the target operation. The above method can reduce data processing time and improve data processing efficiency.

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、计算机设备和存储介质
本专利技术涉及数据处理领域，特别是涉及数据处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的不断发展，游戏逐渐成为人们热衷的娱乐节目，例如，用户可以通过多人在线战斗竞技场游戏(MultiplayerOnlineBattleArena，MOBA)与其他游戏玩家进行竞技。为了增加游戏的刺激性以及趣味性，出现了越来越多的实时对战玩法，当通过人工智能进行游戏时，例如在玩家掉线时通过游戏机器人进行暂时托管或者利用人工智能模拟真实玩家进行游戏对抗时，需要对游戏数据进行进一步处理得到决策结果，由于游戏玩法多样，候选决策结果多，因此数据处理时间长，数据处理效率低。
技术实现思路
基于此，有必要针对上述的问题，提供一种数据处理方法、装置、计算机设备和存储介质，可通过待控制虚拟对象对应的第一当前状态信息进行行为决策，得到目标行为后再根据待控制虚拟对象对应的第二当前状态信息以及操作选择模型得到目标行为对应的目标操作，由于先利用第一当前状态信息进行大局观层面的行为的决策，再利用第二当前状态信息以及已训练的模型得到目标行为对应的具体操作，因此可以减少利用机器模型进行决策时候选决策结果的数量，减少了数据处理时间，提高了数据处理效率。一种数据处理方法，所述方法包括：获取待控制虚拟对象对应的第一当前状态信息；根据所述第一当前状态信息进行行为决策，得到所述待控制虚拟对象对应的目标行为；获取所述待控制虚拟对象对应的第二当前状态信息，将所述第二当前状态信息输入到已训练的操作选择模型中，得到目标操作，所述目标操作是从所述目标行为对应的候选操作...

【技术保护点】
1.一种数据处理方法，所述方法包括：获取待控制虚拟对象对应的第一当前状态信息；根据所述第一当前状态信息进行行为决策，得到所述待控制虚拟对象对应的目标行为；获取所述待控制虚拟对象对应的第二当前状态信息，将所述第二当前状态信息输入到已训练的操作选择模型中，得到目标操作，所述目标操作是从所述目标行为对应的候选操作集合中筛选得到的，所述候选操作集合包括至少两个候选操作；控制所述待控制虚拟对象执行所述目标操作。

【技术特征摘要】
1.一种数据处理方法，所述方法包括：获取待控制虚拟对象对应的第一当前状态信息；根据所述第一当前状态信息进行行为决策，得到所述待控制虚拟对象对应的目标行为；获取所述待控制虚拟对象对应的第二当前状态信息，将所述第二当前状态信息输入到已训练的操作选择模型中，得到目标操作，所述目标操作是从所述目标行为对应的候选操作集合中筛选得到的，所述候选操作集合包括至少两个候选操作；控制所述待控制虚拟对象执行所述目标操作。2.根据权利要求1所述的方法，其特征在于，所述获取所述待控制虚拟对象对应的第二当前状态信息的步骤包括：获取所述待控制虚拟对象的当前图像帧以及按照显示顺序获取所述当前图像帧之前的历史图像帧；将所述当前图像帧以及所述历史图像帧组成当前图像帧集合，作为所述第二当前状态信息。3.根据权利要求2所述的方法，其特征在于，所述第二当前状态信息还包括非图像帧状态信息，所述操作选择模型包括图像特征提取层以及全连接层，所述获取所述待控制虚拟对象对应的第二当前状态信息，将所述第二当前状态信息输入到已训练的操作选择模型中，得到目标操作的步骤包括：将所述当前图像帧集合输入到所述图像特征提取层中，得到对应的图像内容特征；获取所述待控制虚拟对象的非图像帧状态信息；将所述待控制虚拟对象的非图像帧状态信息以及所述图像内容特征输入到所述全连接层中，得到所述目标操作。4.根据权利要求1所述的方法，其特征在于，所述操作选择模型的训练步骤包括：获取当前操作选择模型，获取所述待控制虚拟对象对应的当前训练状态信息；从所述候选操作集合中获取当前操作，控制所述待控制虚拟对象执行所述当前操作，得到执行所述当前操作后所述待控制虚拟对象对应的更新后状态信息；根据所述更新后状态信息以及所述当前训练状态信息计算得到激励反馈数据，根据所述激励反馈数据调整所述当前操作选择模型中的模型参数；将所述更新状态信息作为所述当前训练状态信息，返回获取所述当前训练状态信息的步骤，直至所述当前操作选择模型收敛。5.根据权利要求4所述的方法，其特征在于，所述根据所述更新后状态信息以及所述当前训练状态信息计算得到激励反馈数据，根据所述激励反馈数据调整所述当前操作选择模型中的模型参数的步骤包括：根据所述当前训练状态信息以及所述当前操作选择模型计算得到所述当前操作对应的第二操作评价值；根据所述更新后状态信息以及所述当前操作选择模型计算得到所述候选操作集合中各个候选操作的候选操作评价值；根据所述各个候选操作评价值中的最大操作评价值以及所述激励反馈数据得到期望操作评价值；根据所述第二操作评价值以及所述期望操作评价值调整所述当前操作选择模型中的模型参数。6.根据权利要求4所述的方法，其特征在于，所述根据所述更新后状态信息以及所述当前训练状态信息计算得到激励反馈数据的步骤包括：获取所述待控制虚拟对象的当前训练状态信息以及所述待控制虚拟对象的更新后状态信息，根据所述待控制虚拟对象的当前训练状态信息以及更新后状态信息得到第一状态变化信息，根据所述第一状态变化信息得到第一激励反馈数据；获取与所述待控制虚拟对象进行交互操作的交互虚拟对象，获取所述交互虚拟对象的当前训练状态信息以及所述交互虚拟对象的更新后状态信息，根据所述交互虚拟对象的当前训练状态信息以及更新后状态信息得到第二状态变化信息，根据所述第二状态变化信息得到第二激励反馈数据；根据所述第一激励反馈数据以及所述第二激励反馈数据得到所述激励反馈数据。7.根据权利要求4所述的方法，其特征在于，所述从所述候选操作集合中获取当前操作的步骤包括：获取随机操作的当前被选中率；根据所述随机操作的当前被选中率设置随机操作对应的第一数值范围以及模型操作对应的第二数值范围；生成在所述第一数值范围或所述第二数值范围内的随机数；当所述随机数在所述第一数值范围内时，从所述候选操作集合中随机选择候选操作作为所述当前操作；当所述随机数在所述第二数值范围时，将所述当前训练状态信息输入到所述当...

【专利技术属性】
技术研发人员：杨夏，周大军，荆彦青，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人