一种模型训练方法及其相关设备技术

技术编号:37960507 阅读:7 留言:0更新日期:2023-06-30 09:35
本申请公开了一种模型训练方法及其相关设备,以离线训练模式来训练得到生成流模型,这样可以使得生成流模型具备更优秀的性能。本申请的方法包括:当需要对待训练模型进行训练时,可先从预置的离线数据集中获取智能体的第一信息,第一信息用于指示智能体处于目标状态。然后,可将第一信息输入至待训练模型,以通过待训练模型对第一信息进行处理,从而得到智能体的第一动作的发生概率,智能体的第一动作用于令智能体从目标状态进入目标状态的下一状态。最后,可基于智能体的第一动作的发生概率以及来源于离线数据集的第一动作的真实发生概率,对待训练模型进行训练,从而得到生成流模型。流模型。流模型。

【技术实现步骤摘要】
一种模型训练方法及其相关设备


[0001]本申请实施例涉及人工智能(artificial intelligence,AI)
,尤其涉及一种模型训练方法及其相关设备。

技术介绍

[0002]随着AI技术的飞速发展,生成流模型被广泛应用于描述和解决智能体(agent)在与环境的交互过程中的动作策略选择,从而令智能体在执行相应的动作后能够实现回报最大化或实现特定目标。
[0003]目前,相关技术提供的生成流模型,在确定某个智能体处于目标状态后,可对与该智能体所处的目标状态相关联的信息进行处理,从而预测出该智能体的一个或多个动作的发生概率,这些智能体的动作用于令该智能体从目标状态进入目标状态的一个或多个下一状态。如此一来,该智能体可执行神经网络模型预测得到的发生概率最大的动作,从而进入目标状态的某个下一状态。
[0004]上述生成流模型通常采用的是在线训练模式,也就是说,在对模型进行训练的过程中,对于智能体的任意一个状态,模型可在环境仿真器中,将预测得到的动作应用于该状态,从而随机生成智能体的下一状态。这样的训练模式虽然能够令模型尽可能地学习到智能体的所有状态,但是有些状态不够贴合智能体所在的实际环境,导致训练得到的生成流模型的性能较为一般。

技术实现思路

[0005]本申请实施例提供了一种模型训练方法及其相关设备,以离线训练模式来训练得到生成流模型,这样可以使得生成流模型具备更优秀的性能。
[0006]本申请实施例的第一方面提供了一种模型训练方法,该方法包括:
[0007]当需要对待训练模型进行训练时,可先获取预置的离线数据集,并从离线数据集中提取第一信息,第一信息用于指示智能体处于目标状态。
[0008]得到第一信息后,可将第一信息输入至待训练模型,以通过待训练模型对第一信息进行处理,从而得到智能体的第一动作的(预测)发生概率,第一动作用于令智能体从目标状态进入目标状态的下一状态。至此,待训练模型则完成了针对目标状态的动作预测。在一种可能实现的方式中,待训练模型在获取智能体的第一动作的发生概率时,可以尽可能地遵循以下约束条件:令智能体的第一动作的发生概率与智能体的第一动作的真实发生概率之间的差异位于预置的范围内,其中,智能体的第一动作的真实发生概率可从离线数据集中提取。
[0009]得到智能体的第一动作的发生概率后,可基于智能体的第一动作的发生概率,对待训练模型进行训练,直至满足模型训练条件,从而得到生成流模型。
[0010]从上述方法可以看出:当需要对待训练模型进行训练时,可先从预置的离线数据集中获取智能体的第一信息,第一信息用于指示智能体处于目标状态。然后,可将第一信息
输入至待训练模型,以通过待训练模型对第一信息进行处理,从而得到智能体的第一动作的发生概率,第一动作用于令智能体从目标状态进入目标状态的下一状态。最后,可基于智能体的第一动作的发生概率以及第一动作的真实发生概率,对待训练模型进行训练,从而得到生成流模型,第一动作的真实发生概率来源于所述离线数据集。前述过程中,智能体的第一动作的发生概率可以称为待训练模型针对目标状态的预测动作策略,智能体的第一动作的真实发生概率可以称为离线数据库中针对目标状态的真实动作策略,这样可以令针对目标状态的预测动作策略尽可能地贴合针对目标状态的真实动作策略,而针对目标状态的真实动作策略决定了智能体从目标状态进入目标状态的下一状态的真实概率,故待训练模型不仅可以尽可能多地学习到目标状态的各个下一状态,且学习到的状态足够符合智能体所在的实际环境(因为离线数据集中的数据,均是基于智能体所在的实际环境提前设置的),那么,以离线训练模式训练得到的生成流模型,可以具备更优秀的性能。
[0011]在一种可能实现的方式中,基于第一动作的发生概率,对待训练模型进行训练,得到生成流模型包括:基于离线数据集,对智能体的第二动作的发生概率进行修正,得到第二动作的修正后的发生概率,第二动作用于令智能体从目标状态的前一状态进入目标状态;基于离线数据集,对目标状态对应的奖励值进行修正,得到目标状态对应的修正后的奖励值;基于第一动作的发生概率,第二动作的修正后的发生概率以及与目标状态对应的修正后的奖励值,对待训练模型进行训练,得到生成流模型。前述实现方式中,得到智能体的第一动作的发生概率后,还可获取智能体的第二动作的发生概率,智能体的第二动作用于令智能体从目标状态的前一状态进入目标状态。需要说明的是,由于待训练模型已经完成了针对目标状态的前一状态的动作预测,故可直接获取智能体的第二动作的发生概率。那么,可利用离线数据集中的一些数据,对智能体的第二动作的发生概率进行修正,从而得到智能体的第二动作的修正后的发生概率。得到智能体的第一动作的发生概率后,还可从离线数据集中获取目标状态对象的奖励值,并利用离线数据集中的一些数据对目标状态对应的奖励值进行修正,得到目标状态对应的修正后的奖励值。得到智能体的第二动作的修正后的发生概率以及目标状态对应的修正后的奖励值后,可对智能体的第一动作的发生概率,智能体的第二动作的修正后的发生概率以及与目标状态对应的修正后的奖励值,对待训练模型进行训练,从而得到生成流模型。
[0012]在一种可能实现的方式中,离线数据集包括M个第一候选信息以及M个第二候选信息,第i个第一候选信息用于指示智能体处于第i个候选状态,第i个第二候选信息用于指示智能体处于第i个候选状态的前一状态,M个第一候选信息包括第一信息,M个第二候选信息包含第二信息,第二信息用于指示智能体处于目标状态的前一状态,M个候选状态包含目标状态,M≥1;基于离线数据集,对智能体的第二动作的发生概率进行修正,得到第二动作的修正后的发生概率包括:基于第一信息、第二信息、M个第一候选信息以及M个第二候选信息,对智能体的第二动作的发生概率进行修正,得到第二动作的修正后的发生概率。前述实现方式中,离线数据集包含M个数据组,第1个数据组包含第1个第一候选信息、第1个第二候选信息、第1个第三候选信息、第1个候选状态对应的奖励值以及第1个真实动作策略。以此类推,第M个数据组包含第M个第一候选信息、第M个第二候选信息、第M个第三候选信息、第M个候选状态对应的奖励值以及第M个真实动作策略。那么,可从M个数据组中选择其中一个,将该数据组中的第一候选信息称为第一信息,将该数据组中的第一候选信息所指示的候选
状态称为目标状态,将该数据组中的的第二候选信息称为第二信息。由此可见,第一信息用于指示智能体处于目标状态,第二信息用于指示智能体处于目标状态的前一状态,且智能体的第一动作的真实发生概率是已知的(来源于相应的真实动作策略)。如此一来,可从离线数据库中提取M个第一候选信息以及M个第二候选信息,并对第一信息、第二信息、M个第一候选信息以及M个第二候选信息进行计算,得到针对目标状态的新转换值。然后,利用针对目标状态的新转换值对智能体的第二动作的发生概率进行修正,从而得到第二动作的修正后的发生概率。
[0013]在一种可能实现的方式中,离线数据集还包括M个候选状态对应的奖励值,基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:从预置的离线数据集中,获取智能体的第一信息,所述第一信息用于指示所述智能体处于目标状态;通过待训练模型对所述第一信息进行处理,得到所述智能体的第一动作的发生概率,所述第一动作用于令所述智能体从所述目标状态进入所述目标状态的下一状态;基于所述第一动作的发生概率以及所述第一动作的真实发生概率,对所述待训练模型进行训练,得到生成流模型,所述真实发生概率来源于所述离线数据集。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一动作的发生概率以及所述第一动作的真实发生概率,对所述待训练模型进行训练,得到生成流模型包括:基于所述第一动作的发生概率,对所述待训练模型进行训练,以使得所述第一动作的发生概率与所述第一动作的真实发生概率之间的差异位于预置的范围内,得到生成流模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一动作的发生概率,对所述待训练模型进行训练,得到生成流模型包括:基于所述离线数据集,对所述智能体的第二动作的发生概率进行修正,得到所述第二动作的修正后的发生概率,所述第二动作用于令所述智能体从所述目标状态的前一状态进入所述目标状态;基于所述离线数据集,对所述目标状态对应的奖励值进行修正,得到所述目标状态对应的修正后的奖励值;基于所述第一动作的发生概率,所述第二动作的修正后的发生概率以及与所述目标状态对应的修正后的奖励值,对所述待训练模型进行训练,得到生成流模型。4.根据权利要求3所述的方法,其特征在于,所述离线数据集包括M个第一候选信息以及M个第二候选信息,第i个第一候选信息用于指示所述智能体处于第i个候选状态,第i个第二候选信息用于指示所述智能体处于所述第i个候选状态的前一状态,所述M个第一候选信息包括所述第一信息,所述M个第二候选信息包含第二信息,所述第二信息用于指示所述智能体处于所述目标状态的前一状态,所述M个候选状态包含所述目标状态,M≥1;所述基于所述离线数据集,对所述智能体的第二动作的发生概率进行修正,得到所述第二动作的修正后的发生概率包括:基于所述第一信息、所述第二信息、所述M个第一候选信息以及所述M个第二候选信息,对所述智能体的第二动作的发生概率进行修正,得到所述第二动作的修正后的发生概率。5.根据权利要求4所述的方法,其特征在于,所述离线数据集还包括所述M个候选状态对应的奖励值,所述基于所述离线数据集,对所述目标状态对应的奖励值进行修正,得到所述目标状态对应的修正后的奖励值包括:基于所述第一信息、所述M个第一候选信息以及所述M个候选状态对应的奖励值,对所述目标状态对应的奖励值进行修正,得到所述目标状态对应的修正后的奖励值。6.根据权利要求1至5任意一项所述的方法,其特征在于,所述第一信息为所述智能体处于所述目标状态时所采集的信息,所述信息包含以下至少一项:图像、视频、音频或文本。7.一种动作预测方法,其特征在于,所述方法通过权利要求1至6任意一项中的生成流模型实现,所述方法包括:
获取智能体的信息,所述信息用于指示所述智能体处于目标状态;通过待训练模型对所述信息进行处理,得到所述智能体的动作的发生概率,所述动作用于令所述智能体从所述目标状态进入所述目标状态的下一状态。8.一种动作预测方法,其特征在于,所述方法包括:获取智能体的信息,所述信息用于指示所述智能体处于目标状态;通过待训练模型对所述信息进行处理,得到所述智能体的动作的发生概率,所述动作用于令所述智能体从所述目标状态进入所述目标状态的下一状态;基于所述动作的发生概率基于所述预置动作的发生概率,确定待执行的动作。9.根据权利要求8所述的方法,其特征在于,所述动作的发生概率基于所述预置动作的发生概率,确定待执行的动作包括:在所述动作以及所述预置动作中,将发生概率最大的动作确定为待执行的动作。10.一种模型训练装置,其特征在于,所述装置包括:获取模块,用于从预置的离线数据集中,获取智能体的第一信息,所述第一信息用于指示所述智能体处于目标状态;处理模块,用于通过待训练...

【专利技术属性】
技术研发人员:李银川邵云峰郝建业
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1