一种应用策略模型的训练方法及装置制造方法及图纸

技术编号：21476736 阅读：22 留言：0更新日期：2019-06-29 04:34

本发明专利技术实施例公开了应用策略模型的训练方法及装置，应用于信息处理技术领域。应用策略平台会与应用终端建立连接，并通过建立的连接，采集应用终端的运行状态及用户操作应用终端的用户操作事件；然后根据预置的各个状态对象执行动作的描述信息，解析用户操作事件得到应用终端的状态对象执行动作，最后建立运行状态与状态对象执行动作之间的对应关系，一个对应关系则为一个样本对，以训练应用策略模型。这样，通过部署一个独立的平台即应用策略平台就可以获取到应用策略模型的训练样本，而不需要在应用终端内置样本记录模块，方便了对训练样本的采集，且扩展性较强。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用策略模型的训练方法及装置
本专利技术涉及信息处理
，特别涉及一种应用策略模型的训练方法及装置。
技术介绍
人工智能现已应用于很多领域，比如应用于游戏领域中，可以代替真实操作者(比如玩家)在游戏应用运行的过程中进行操作。这就需要事先训练一个应用策略模型，该应用策略模型用于根据游戏状态输出执行动作的信息，例如，根据某一游戏画面输出某一动作的标记，这样，游戏应用可以直接根据该应用策略模型输出的信息，执行相应操作。在训练应用策略模型的过程中，需要先采集训练样本，在训练样本中包括多个样本对，每个样本对都包括游戏状态和执行动作的信息。在现有的样本数据采集过程中，一般会在游戏应用内集成样本记录模块，当操作者通过操作应用终端，使得应用终端在运行游戏应用的过程中，该样本记录模块会记录多帧游戏画面，及每帧游戏画面对应的动作信息。然后将样本记录模块记录的数据作为训练样本，以训练上述应用策略模型。但是，为了实现现有的样本数据采集，需要在游戏应用开发阶段，在游戏应用内集成样本记录模块，这就要求与游戏开发商进行合作；或者游戏本身是开源应用，这对很多商业游戏来说是不可行的。
技术实现思路
本专利技术实施例提供一种应用策略模型的训练方法及装置，实现了由独立的应用策略平台通过建立的连接，对应用终端的运行状态及用户操作事件，以得到样本对。本专利技术实施例第一方面提供一种应用策略模型的训练方法，包括：与应用终端建立连接；通过所述建立的连接，采集所述应用终端在预设时间段内的运行状态；通过所述建立的连接，采集在所述预设时间段内用户操作所述应用终端的用户操作事件；根据预置的状态对象执行动作...

【技术保护点】
1.一种应用策略模型的训练方法，其特征在于，包括：与应用终端建立连接；通过所述建立的连接，采集所述应用终端在预设时间段内的运行状态；通过所述建立的连接，采集在所述预设时间段内用户操作所述应用终端的用户操作事件；根据预置的状态对象执行动作的描述信息，解析所述用户操作事件，得到所述应用终端基于所述用户操作的状态对象执行动作；建立所述运行状态与状态对象执行动作之间的对应关系，将每个对应关系作为一个样本对，以训练应用策略模型。

【技术特征摘要】
1.一种应用策略模型的训练方法，其特征在于，包括：与应用终端建立连接；通过所述建立的连接，采集所述应用终端在预设时间段内的运行状态；通过所述建立的连接，采集在所述预设时间段内用户操作所述应用终端的用户操作事件；根据预置的状态对象执行动作的描述信息，解析所述用户操作事件，得到所述应用终端基于所述用户操作的状态对象执行动作；建立所述运行状态与状态对象执行动作之间的对应关系，将每个对应关系作为一个样本对，以训练应用策略模型。2.如权利要求1所述的方法，其特征在于，所述用户操作事件包括所述预设时间段内，多个时间点上用户操作所述应用终端的按键信息；所述解析所述用户操作事件，得到所述应用终端基于所述用户操作的状态对象执行动作，具体包括：根据所述多个时间点上用户操作所述应用终端的按键信息，分别确定所述多个时间点上用户操作所述应用终端的按键操作类型；根据各个时间点上的按键操作类型、按键信息及预置的各个状态对象执行动作的描述信息，确定所述各个时间点的状态对象执行动作。3.如权利要求2所述的方法，其特征在于，所述预置的状态对象执行动作的描述信息中包括按键区域，所述用户操作应用终端的按键信息包括触控点的坐标信息；则根据某一时间点上用户操作所述应用终端的按键信息，确定所述某一时间点上用户操作所述应用终端的按键操作类型，具体包括：如果某一时间点上用户操作所述应用终端的第一触控点的坐标信息在预置的某一按键区域内，确定所述某一时间点的按键操作类型为点击或按压；如果某一时间点上用户操作所述应用终端的第一触控点的坐标信息在预置的某一按键区域内，且所述某一时间点的下一时间点上用户操作所述应用终端的第二触控点的坐标信息不在所述某一按键区域内，所述第一触控点与第二触控点为同一触控点，则确定所述下一时间点的按键操作类型为松开。4.如权利要求3所述的方法，其特征在于，所述根据某一时间点上用户操作所述应用终端的按键信息，确定所述某一时间点上用户操作所述应用终端的按键操作类型，...

【专利技术属性】
技术研发人员：杨夏，周大军，张力柯，荆彦青，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人