【技术实现步骤摘要】
一种数据处理方法和相关装置
[0001]本申请涉及数据处理领域,特别是涉及一种数据处理方法和相关装置。
技术介绍
[0002]游戏应用程序在运行时可以为用户提供游戏场景,用户通过在游戏场景中控制游戏中的虚拟对象做出各种行为,以进行游戏体验。
[0003]游戏场景中的虚拟对象能够被控制做出各种行为,例如各种方式的移动、各类技能释放等。而且,通过控制虚拟对象做出包括多个行为的组合行为时,可能会产生意料之外的作用和效果。
[0004]为了能够全面发掘出虚拟对象的组合行为,相关技术中主要采用人工的方式,通过调用大量人员在游戏场景中对虚拟对象进行各种可能的组合行为尝试,然而这种方式不仅人工成本较高,而且受困于人为经验,难以对所有可能的组合行为进行全面尝试,导致无法满足全面发掘组合行为的目的。
技术实现思路
[0005]为了解决上述技术问题,本申请提供了一种数据处理方法和相关装置,能够提升游戏场景中虚拟对象组合行为的发掘全面性和效率。
[0006]本申请实施例公开了如下技术方案:一方面,本申请提供了一种数据处理方法,所述方法包括:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;响应于根据第i
‑
n轮到所述第 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;响应于根据第i
‑
n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将所述第i
‑
n
‑
1轮到所述第i轮的目标行为确定为组合行为,所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i
‑
1的正整数;在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数;根据所述第i轮的奖励参数对所述预测模型进行强化学习,并通过强化学习后的所述预测模型对所述待测对象进行所述第i+1轮的自动化控制。3.根据权利要求2所述的方法,其特征在于,所述根据所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数,包括:根据第i
‑
1轮的奖励参数和所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数。4.根据权利要求2所述的方法,其特征在于,所述第i轮的奖励参数包括对象状态子参数,所述对象状态子参数用于标识前i轮已出现的对象状态对所述第i轮的奖励参数的影响,所述前i轮已出现的对象状态的数量越多,对所述第i轮的奖励参数产生的正向影响越大。5.根据权利要求4所述的方法,其特征在于,所述第i轮的奖励参数还包括组合行为子参数和行为操作子参数;所述组合行为子参数用于标识前i轮已确定的组合行为数量对所述第i轮的奖励参数的影响,所述前i轮已确定的组合行为数量越多,对所述第i轮的奖励参数产生的正向影响越大;所述行为操作子参数用于标识前i轮已确定的组合行为的总操作数量对所述第i轮的奖励参数的影响,所述前i轮已确定的组合行为的总操作数量越多,对所述第i轮的奖励参数产生的负向影响越大。6.根据权利要求5所述的方法,其特征在于,所述对象状态子参数对奖励参数的影响权重,大于所述组合行为子参数或所述行为操作子参数的影响权重。7.根据权利要求1所述的方法,其特征在于,所述第i轮的游戏场景还涉及陪测对象,所述陪测对象用于对所述待测对象被控制实施的目标行为进行响应;所述对象状态还用于标识所述陪测对象在响应所述待测对象的目标行为后的状态。8.根据权利要求1所述的方法,其特征在于,所述第i轮的目标行为包括对象位置变化行为或对象能力实施行为。
9.根据权利要求1所述的方法,其特征在于,所述第i轮的场景特征包括位图特征和单位特征,所述位图特征用于标识所述第i轮的游戏场景中对象的位置信息,所述单位特征用于标识所述第i轮的游戏场景中对象的对象属性,以及对所述待测对象的行为构成影响的环境元素属性。10.根据权利要求1所述的方法,其特征在于,在所述将确定出的组合行为构建为所述待测对象的组合行为集合之后,所述方法还包括:显示组合行为确定结果,所述组合行为确定结果包括所述组合行为集合,以及与所述组合行为集合中组合行为分别对应的对象状态标签,所述对象状态标签是根据所对应组合行为生成的对象状态所确定的。11.根据权利要求3所述的方法,其特征在于,所述待测对象被通过所述预测模型进行了N次用于组合行为确定...
【专利技术属性】
技术研发人员:李是希,魏学峰,严明,肖央,邹越,张鹏,肖凌志,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。