一种数据处理方法和相关装置制造方法及图纸

技术编号:38989079 阅读:6 留言:0更新日期:2023-10-07 10:19
本申请公开了一种数据处理方法和相关装置,方法包括:通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取目标游戏在第i轮的游戏场景的场景特征,第i轮的游戏场景涉及待测对象;根据第i轮的场景特征确定待测对象在第i轮的目标行为;通过控制待测对象在第i轮的游戏场景中实施第i轮的目标行为,得到目标游戏第i+1轮的游戏场景;响应于根据第i

【技术实现步骤摘要】
一种数据处理方法和相关装置


[0001]本申请涉及数据处理领域,特别是涉及一种数据处理方法和相关装置。

技术介绍

[0002]游戏应用程序在运行时可以为用户提供游戏场景,用户通过在游戏场景中控制游戏中的虚拟对象做出各种行为,以进行游戏体验。
[0003]游戏场景中的虚拟对象能够被控制做出各种行为,例如各种方式的移动、各类技能释放等。而且,通过控制虚拟对象做出包括多个行为的组合行为时,可能会产生意料之外的作用和效果。
[0004]为了能够全面发掘出虚拟对象的组合行为,相关技术中主要采用人工的方式,通过调用大量人员在游戏场景中对虚拟对象进行各种可能的组合行为尝试,然而这种方式不仅人工成本较高,而且受困于人为经验,难以对所有可能的组合行为进行全面尝试,导致无法满足全面发掘组合行为的目的。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种数据处理方法和相关装置,能够提升游戏场景中虚拟对象组合行为的发掘全面性和效率。
[0006]本申请实施例公开了如下技术方案:一方面,本申请提供了一种数据处理方法,所述方法包括:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;响应于根据第i

n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将所述第i

n

1轮到所述第i轮的目标行为确定为组合行为,所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i的正整数;在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。
[0007]另一方面,本申请提供了一种数据处理装置,所述装置包括:获取单元,用于:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;确定单元,用于:根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;所述获取单元还用于:通过控制所述待测对象在所述第i轮的游戏场景中实施所
述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;所述确定单元还用于:响应于根据第i

n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将所述第i

n

1轮到所述第i轮的目标行为确定为组合行为,所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i的正整数;集合构建单元,用于:在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。
[0008]另一方面,本申请提供了一种计算机设备,所述计算机设备包括处理器以及存储器:所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;所述处理器用于根据所述计算机程序执行以上所述的数据处理方法。
[0009]另一方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序在被计算机设备执行时实现执行以上所述的数据处理方法。
[0010]另一方面,本申请提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行以上所述的数据处理方法。
[0011]由上述技术方案可以看出,为了自动化发掘目标游戏中待测对象的组合行为,通过预测模型对待测对象进行自动化控制。在第i轮自动化控制时,获取目标游戏在第i轮时的游戏场景的场景特征,基于该场景特征确定目标行为,并控制待测对象在第i轮实施该目标行为,得到目标游戏在第i+1轮的游戏场景。由于第i+1轮的游戏场景可以体现出该目标行为对第i轮的游戏场景的影响,从而可以基于第i

n轮到所述第i+1轮的游戏场景确定是否生成了目标对象状态。因为已确定的组合行为无法得到新的对象状态,故可以在生成了目标对象状态时,确定基于这几轮的目标行为产生了新的组合行为,在通过每一轮产生的奖励参数的强化学习下,当预测模型完成强化学习后,所确定出的全部组合行为就是通过本次强化学习自动发掘出的待测对象的组合行为集合。这种结合强化学习,并基于对象状态来确定组合行为的方式,可以自动化的发掘待测对象的可能的组合行为,且排除了人为的接入,大大提升了组合行为的发掘全面性和效率。
附图说明
[0012]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本申请实施例提供的一种数据处理方法的场景示意图;图2为本申请实施例提供的一种数据处理方法的方法流程图;图3为本申请实施例提供的通过预测模型进行强化学习的流程示意图;图4为本申请实施例提供的组合行为确定结果的显示效果图;图5为本申请实施例提供的交互结果示意图;图6为本申请另一实施例提供的交互结果示意图;图7为本申请实施例提供的一种组合行为交互过程的流程示意图;
图8为本申请场景实施例提供的一种数据处理方法的流程示意图;图9为本申请实施例提供的一种数据处理装置的结构示意图;图10为本申请实施例提供的一种终端设备的结构图;图11为本申请实施例提供的一种服务器的结构图。
具体实施方式
[0014]下面结合附图,对本申请的实施例进行描述。
[0015]在游戏场景中,虚拟对象能够被控制来做出各种行为,例如虚拟对象在游戏场景中的移动、技能释放、使用道具等,同时,当虚拟对象被控制做出多个行为的组合行为时,可能会产生意料之外的作用和效果,为了在游戏场景中全面发掘虚拟对象各种可能的组合行为,相关技术通过调用大量策划人员、测试人员进行人工操作,控制虚拟对象在游戏场景中进行组合行为尝试,发掘各种组合行为带来的作用和效果,但是,这种通过人工操作进行组合行为尝试的方法不仅人工成本较高,而且由于测试人员的经验有限,可能难以对所有可能的组合行为进行全面尝试,导致无法满足全面发掘组合行为的目的。
[0016]尤其在多人在线战术竞技游戏(Multiplayer Online Battle Arena Games,MOBA)中,当为游戏中的各个虚拟对象设置了多种游戏技能时,游戏玩家可以通过将各种游戏技能自由组合,形成一套组合技能,使得组合技能释放后所达到的作用和效果大于各个游戏技能单独释放时的作用和效果。多种技能的组合释放极大提高了游戏玩家对于虚拟对象的操作上限,通过人工进行测试时,由于测试人员的操作水平有限,部分操作可能难以被成功触本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;响应于根据第i

n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将所述第i

n

1轮到所述第i轮的目标行为确定为组合行为,所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i

1的正整数;在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数;根据所述第i轮的奖励参数对所述预测模型进行强化学习,并通过强化学习后的所述预测模型对所述待测对象进行所述第i+1轮的自动化控制。3.根据权利要求2所述的方法,其特征在于,所述根据所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数,包括:根据第i

1轮的奖励参数和所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数。4.根据权利要求2所述的方法,其特征在于,所述第i轮的奖励参数包括对象状态子参数,所述对象状态子参数用于标识前i轮已出现的对象状态对所述第i轮的奖励参数的影响,所述前i轮已出现的对象状态的数量越多,对所述第i轮的奖励参数产生的正向影响越大。5.根据权利要求4所述的方法,其特征在于,所述第i轮的奖励参数还包括组合行为子参数和行为操作子参数;所述组合行为子参数用于标识前i轮已确定的组合行为数量对所述第i轮的奖励参数的影响,所述前i轮已确定的组合行为数量越多,对所述第i轮的奖励参数产生的正向影响越大;所述行为操作子参数用于标识前i轮已确定的组合行为的总操作数量对所述第i轮的奖励参数的影响,所述前i轮已确定的组合行为的总操作数量越多,对所述第i轮的奖励参数产生的负向影响越大。6.根据权利要求5所述的方法,其特征在于,所述对象状态子参数对奖励参数的影响权重,大于所述组合行为子参数或所述行为操作子参数的影响权重。7.根据权利要求1所述的方法,其特征在于,所述第i轮的游戏场景还涉及陪测对象,所述陪测对象用于对所述待测对象被控制实施的目标行为进行响应;所述对象状态还用于标识所述陪测对象在响应所述待测对象的目标行为后的状态。8.根据权利要求1所述的方法,其特征在于,所述第i轮的目标行为包括对象位置变化行为或对象能力实施行为。
9.根据权利要求1所述的方法,其特征在于,所述第i轮的场景特征包括位图特征和单位特征,所述位图特征用于标识所述第i轮的游戏场景中对象的位置信息,所述单位特征用于标识所述第i轮的游戏场景中对象的对象属性,以及对所述待测对象的行为构成影响的环境元素属性。10.根据权利要求1所述的方法,其特征在于,在所述将确定出的组合行为构建为所述待测对象的组合行为集合之后,所述方法还包括:显示组合行为确定结果,所述组合行为确定结果包括所述组合行为集合,以及与所述组合行为集合中组合行为分别对应的对象状态标签,所述对象状态标签是根据所对应组合行为生成的对象状态所确定的。11.根据权利要求3所述的方法,其特征在于,所述待测对象被通过所述预测模型进行了N次用于组合行为确定...

【专利技术属性】
技术研发人员:李是希魏学峰严明肖央邹越张鹏肖凌志
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1