【技术实现步骤摘要】
一种模型训练方法及其相关设备
[0001]本申请实施例涉及人工智能(artificial intelligence,AI)
,尤其涉及一种模型训练方法及其相关设备。
技术介绍
[0002]随着AI技术的飞速发展,生成流模型被广泛应用于描述和解决智能体(agent)在与环境的交互过程中的动作策略选择,从而令智能体在执行相应的动作后能够实现回报最大化或实现特定目标。
[0003]目前,相关技术提供的生成流模型,在确定某个智能体处于目标状态后,可对与该智能体所处的目标状态相关联的信息进行处理,从而预测出该智能体的一个或多个动作的发生概率,这些智能体的动作用于令该智能体从目标状态进入目标状态的一个或多个下一状态。如此一来,该智能体可执行神经网络模型预测得到的发生概率最大的动作,从而进入目标状态的某个下一状态。
[0004]上述生成流模型通常采用的是在线训练模式,也就是说,在对模型进行训练的过程中,对于智能体的任意一个状态,模型可在环境仿真器中,将预测得到的动作应用于该状态,从而随机生成智能体的下一状态。这样的训练模式虽然能够令模型尽可能地学习到智能体的所有状态,但是有些状态不够贴合智能体所在的实际环境,导致训练得到的生成流模型的性能较为一般。
技术实现思路
[0005]本申请实施例提供了一种模型训练方法及其相关设备,以离线训练模式来训练得到生成流模型,这样可以使得生成流模型具备更优秀的性能。
[0006]本申请实施例的第一方面提供了一种模型训练方法,该方法包括:
[000 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:从预置的离线数据集中,获取智能体的第一信息,所述第一信息用于指示所述智能体处于目标状态;通过待训练模型对所述第一信息进行处理,得到所述智能体的第一动作的发生概率,所述第一动作用于令所述智能体从所述目标状态进入所述目标状态的下一状态;基于所述第一动作的发生概率以及所述第一动作的真实发生概率,对所述待训练模型进行训练,得到生成流模型,所述真实发生概率来源于所述离线数据集。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一动作的发生概率以及所述第一动作的真实发生概率,对所述待训练模型进行训练,得到生成流模型包括:基于所述第一动作的发生概率,对所述待训练模型进行训练,以使得所述第一动作的发生概率与所述第一动作的真实发生概率之间的差异位于预置的范围内,得到生成流模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一动作的发生概率,对所述待训练模型进行训练,得到生成流模型包括:基于所述离线数据集,对所述智能体的第二动作的发生概率进行修正,得到所述第二动作的修正后的发生概率,所述第二动作用于令所述智能体从所述目标状态的前一状态进入所述目标状态;基于所述离线数据集,对所述目标状态对应的奖励值进行修正,得到所述目标状态对应的修正后的奖励值;基于所述第一动作的发生概率,所述第二动作的修正后的发生概率以及与所述目标状态对应的修正后的奖励值,对所述待训练模型进行训练,得到生成流模型。4.根据权利要求3所述的方法,其特征在于,所述离线数据集包括M个第一候选信息以及M个第二候选信息,第i个第一候选信息用于指示所述智能体处于第i个候选状态,第i个第二候选信息用于指示所述智能体处于所述第i个候选状态的前一状态,所述M个第一候选信息包括所述第一信息,所述M个第二候选信息包含第二信息,所述第二信息用于指示所述智能体处于所述目标状态的前一状态,所述M个候选状态包含所述目标状态,M≥1;所述基于所述离线数据集,对所述智能体的第二动作的发生概率进行修正,得到所述第二动作的修正后的发生概率包括:基于所述第一信息、所述第二信息、所述M个第一候选信息以及所述M个第二候选信息,对所述智能体的第二动作的发生概率进行修正,得到所述第二动作的修正后的发生概率。5.根据权利要求4所述的方法,其特征在于,所述离线数据集还包括所述M个候选状态对应的奖励值,所述基于所述离线数据集,对所述目标状态对应的奖励值进行修正,得到所述目标状态对应的修正后的奖励值包括:基于所述第一信息、所述M个第一候选信息以及所述M个候选状态对应的奖励值,对所述目标状态对应的奖励值进行修正,得到所述目标状态对应的修正后的奖励值。6.根据权利要求1至5任意一项所述的方法,其特征在于,所述第一信息为所述智能体处于所述目标状态时所采集的信息,所述信息包含以下至少一项:图像、视频、音频或文本。7.一种动作预测方法,其特征在于,所述方法通过权利要求1至6任意一项中的生成流模型实现,所述方法包括:
获取智能体的信息,所述信息用于指示所述智能体处于目标状态;通过待训练模型对所述信息进行处理,得到所述智能体的动作的发生概率,所述动作用于令所述智能体从所述目标状态进入所述目标状态的下一状态。8.一种动作预测方法,其特征在于,所述方法包括:获取智能体的信息,所述信息用于指示所述智能体处于目标状态;通过待训练模型对所述信息进行处理,得到所述智能体的动作的发生概率,所述动作用于令所述智能体从所述目标状态进入所述目标状态的下一状态;基于所述动作的发生概率基于所述预置动作的发生概率,确定待执行的动作。9.根据权利要求8所述的方法,其特征在于,所述动作的发生概率基于所述预置动作的发生概率,确定待执行的动作包括:在所述动作以及所述预置动作中,将发生概率最大的动作确定为待执行的动作。10.一种模型训练装置,其特征在于,所述装置包括:获取模块,用于从预置的离线数据集中,获取智能体的第一信息,所述第一信息用于指示所述智能体处于目标状态;处理模块,用于通过待训练...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。