一种应用策略模型的训练方法及装置制造方法及图纸

技术编号:21476736 阅读:22 留言:0更新日期:2019-06-29 04:34
本发明专利技术实施例公开了应用策略模型的训练方法及装置,应用于信息处理技术领域。应用策略平台会与应用终端建立连接,并通过建立的连接,采集应用终端的运行状态及用户操作应用终端的用户操作事件;然后根据预置的各个状态对象执行动作的描述信息,解析用户操作事件得到应用终端的状态对象执行动作,最后建立运行状态与状态对象执行动作之间的对应关系,一个对应关系则为一个样本对,以训练应用策略模型。这样,通过部署一个独立的平台即应用策略平台就可以获取到应用策略模型的训练样本,而不需要在应用终端内置样本记录模块,方便了对训练样本的采集,且扩展性较强。

【技术实现步骤摘要】
一种应用策略模型的训练方法及装置
本专利技术涉及信息处理
,特别涉及一种应用策略模型的训练方法及装置。
技术介绍
人工智能现已应用于很多领域,比如应用于游戏领域中,可以代替真实操作者(比如玩家)在游戏应用运行的过程中进行操作。这就需要事先训练一个应用策略模型,该应用策略模型用于根据游戏状态输出执行动作的信息,例如,根据某一游戏画面输出某一动作的标记,这样,游戏应用可以直接根据该应用策略模型输出的信息,执行相应操作。在训练应用策略模型的过程中,需要先采集训练样本,在训练样本中包括多个样本对,每个样本对都包括游戏状态和执行动作的信息。在现有的样本数据采集过程中,一般会在游戏应用内集成样本记录模块,当操作者通过操作应用终端,使得应用终端在运行游戏应用的过程中,该样本记录模块会记录多帧游戏画面,及每帧游戏画面对应的动作信息。然后将样本记录模块记录的数据作为训练样本,以训练上述应用策略模型。但是,为了实现现有的样本数据采集,需要在游戏应用开发阶段,在游戏应用内集成样本记录模块,这就要求与游戏开发商进行合作;或者游戏本身是开源应用,这对很多商业游戏来说是不可行的。
技术实现思路
本专利技术实施例提供一种应用策略模型的训练方法及装置,实现了由独立的应用策略平台通过建立的连接,对应用终端的运行状态及用户操作事件,以得到样本对。本专利技术实施例第一方面提供一种应用策略模型的训练方法,包括:与应用终端建立连接;通过所述建立的连接,采集所述应用终端在预设时间段内的运行状态;通过所述建立的连接,采集在所述预设时间段内用户操作所述应用终端的用户操作事件;根据预置的状态对象执行动作的描述信息,解析所述用户操作事件,得到所述应用终端基于所述用户操作的状态对象执行动作;建立所述运行状态与状态对象执行动作之间的对应关系,将每个对应关系作为一个样本对,以训练应用策略模型。本专利技术实施例第二方面提供一种应用策略平台,包括:连接建立单元,用于与应用终端建立连接;状态采集单元,用于通过所述建立的连接,采集所述应用终端在预设时间段内的运行状态;操作采集单元,用于通过所述建立的连接,采集在所述预设时间段内用户操作所述应用终端的用户操作事件;解析单元,用于根据预置的状态对象执行动作的描述信息,解析所述用户操作事件,得到所述应用终端基于所述用户操作的状态对象执行动作;样本建立单元,用于建立所述运行状态与状态对象执行动作之间的对应关系,将每个对应关系作为一个样本对,以训练应用策略模型。本专利技术实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本专利技术实施例第一方面所述的应用策略模型的训练方法。本专利技术实施例第四方面提供一种终端设备,其特征在于,包括处理器和存储介质,所述处理器,用于实现各个指令;所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本专利技术实施例第一方面所述的应用策略模型的训练方法。可见,在本实施例的方法中,应用策略平台会与应用终端建立连接,并通过建立的连接,采集应用终端的运行状态及用户操作应用终端的用户操作事件;然后根据预置的各个状态对象执行动作的描述信息,解析用户操作事件得到应用终端的状态对象执行动作,最后建立运行状态与状态对象执行动作之间的对应关系,一个对应关系则为一个样本对,以训练应用策略模型。这样,通过部署一个独立的平台即应用策略平台就可以获取到应用策略模型的训练样本,而不需要在应用终端内置样本记录模块,方便了对训练样本的采集;且对不同应用的应用策略模型的训练样本进行采集时,只需预置相应的状态对象执行动作的描述信息即可,不需要改动太大,扩展性较强;且在这个过程中,用户对应用终端的操作只是普通操作,而不需要另外定义用户操作,进一步地简化了训练样本采集的过程。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种应用策略模型的训练方法的示意图;图2是本专利技术一个实施例提供的一种应用策略模型的训练方法的流程图;图3a是本专利技术一个实施例中判定按键操作类型是否为点击或按压的方法流程图;图3b是本专利技术一个实施例中判定按键操作类型是否为松开的方法流程图;图3c是本专利技术一个实施例中判定按键操作类型是否为滑动的方法流程图;图4是本专利技术一个实施例中应用策略平台展示的一个样本对的示意图;图5是本专利技术应用实施例中一种应用策略模型的训练方法所应用于的系统示意图;图6是本专利技术应用实施例提供的一种应用策略模型的训练方法的示意图;图7a是本专利技术应用实施例中一种用户操作事件解析方法的流程图;图7b是本专利技术应用实施例中另一种用户操作事件解析方法的流程图图8是本专利技术应用实施例中确定的初始游戏策略模型的结构示意图;图9是本专利技术实施例提供的一种应用策略平台的结构示意图;图10是本专利技术实施例提供的另一种应用策略平台的结构示意图;图11是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例提供一种应用策略模型的训练方法,主要可以应用于如图1所示的系统中,该系统中应用策略平台可以与一个或多个应用终端(图1以1个应用终端为例说明)建立连接,且可以按照如下的方法进行应用策略模型的训练:与应用终端建立连接;通过所述建立的连接,采集所述应用终端在预设时间段内的运行状态;通过所述建立的连接,采集在所述预设时间段内用户操作所述应用终端的用户操作事件;根据预置的状态对象执行动作的描述信息,解析所述用户操作事件,得到所述应用终端基于所述用户操作的状态对象执行动作;建立所述运行状态与状态对象执行动作之间的对应关系,将每个对应关系作为一个样本对,以训练应用策略模型。其中,应用终端具体可以是游戏等应用的终端。如果应用策略平台连接的应用终端为多个时,这些应用终端可以是相同应用的终端,比如,都为某一游戏应用的终端,这样,这些应用终端也可以是不相同应用的终端,比如,为不同游戏应用的终端。这样,通过部署一个独立的平台即应用策略平台就可以获取到应用策略模型的训练样本,而不需要在应用终端内置样本记录模块,方便了对训练样本的采集;且对不同应用的应用策略本文档来自技高网...

【技术保护点】
1.一种应用策略模型的训练方法,其特征在于,包括:与应用终端建立连接;通过所述建立的连接,采集所述应用终端在预设时间段内的运行状态;通过所述建立的连接,采集在所述预设时间段内用户操作所述应用终端的用户操作事件;根据预置的状态对象执行动作的描述信息,解析所述用户操作事件,得到所述应用终端基于所述用户操作的状态对象执行动作;建立所述运行状态与状态对象执行动作之间的对应关系,将每个对应关系作为一个样本对,以训练应用策略模型。

【技术特征摘要】
1.一种应用策略模型的训练方法,其特征在于,包括:与应用终端建立连接;通过所述建立的连接,采集所述应用终端在预设时间段内的运行状态;通过所述建立的连接,采集在所述预设时间段内用户操作所述应用终端的用户操作事件;根据预置的状态对象执行动作的描述信息,解析所述用户操作事件,得到所述应用终端基于所述用户操作的状态对象执行动作;建立所述运行状态与状态对象执行动作之间的对应关系,将每个对应关系作为一个样本对,以训练应用策略模型。2.如权利要求1所述的方法,其特征在于,所述用户操作事件包括所述预设时间段内,多个时间点上用户操作所述应用终端的按键信息;所述解析所述用户操作事件,得到所述应用终端基于所述用户操作的状态对象执行动作,具体包括:根据所述多个时间点上用户操作所述应用终端的按键信息,分别确定所述多个时间点上用户操作所述应用终端的按键操作类型;根据各个时间点上的按键操作类型、按键信息及预置的各个状态对象执行动作的描述信息,确定所述各个时间点的状态对象执行动作。3.如权利要求2所述的方法,其特征在于,所述预置的状态对象执行动作的描述信息中包括按键区域,所述用户操作应用终端的按键信息包括触控点的坐标信息;则根据某一时间点上用户操作所述应用终端的按键信息,确定所述某一时间点上用户操作所述应用终端的按键操作类型,具体包括:如果某一时间点上用户操作所述应用终端的第一触控点的坐标信息在预置的某一按键区域内,确定所述某一时间点的按键操作类型为点击或按压;如果某一时间点上用户操作所述应用终端的第一触控点的坐标信息在预置的某一按键区域内,且所述某一时间点的下一时间点上用户操作所述应用终端的第二触控点的坐标信息不在所述某一按键区域内,所述第一触控点与第二触控点为同一触控点,则确定所述下一时间点的按键操作类型为松开。4.如权利要求3所述的方法,其特征在于,所述根据某一时间点上用户操作所述应用终端的按键信息,确定所述某一时间点上用户操作所述应用终端的按键操作类型,...

【专利技术属性】
技术研发人员:杨夏周大军张力柯荆彦青
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1