交互模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:30405974 阅读:18 留言:0更新日期:2021-10-20 11:10
本申请涉及一种交互模型训练方法、装置、计算机设备和存储介质。所述方法包括:获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型。采用本方法能够提高模型训练效果。果。果。

【技术实现步骤摘要】
交互模型训练方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种交互模型训练方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着互联网技术的不断发展,游戏逐渐成为人们热衷的娱乐节目,基于虚拟环境的游戏越来越普遍,例如,游戏中,敌我双方可以根据游戏目标在游戏应用中进行对抗,以获取胜利。
[0003]在虚拟环境中,可以通过人工智能进行竞技,例如在游戏玩家掉线时进行托管,利用交互模型代替玩家在虚拟环境中进行竞技。然而目前的交互模型存在训练效率低的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种交互模型训练方法、装置、计算机设备和存储介质。
[0005]一种交互模型训练方法,所述方法包括:获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型。
[0006]一种交互模型训练装置,所述装置包括:参考交互轨迹获取模块,用于获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;当前初始交互状态选取模块,用于按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;训练模块,用于根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;返回模块,用于当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型。
[0007]在一些实施例中,所述返回模块用于:确定所述参考交互轨迹所对应的交互胜利方,获取所述交互胜利方在模型训练过程中的胜利比例;当所述胜利比例大于比例阈值时,确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤。
[0008]在一些实施例中,待训练的交互模型包括进行交互的第一交互模型以及第二交互模型;所述训练模块用于:所述第一交互模型基于当前初始交互状态得到第一交互动作,在
虚拟交互环境中控制第一虚拟对象执行所述第一交互动作,得到第一更新状态;基于所述第一更新状态计算第一收益值,基于所述第一收益值调整所述第一交互模型的参数;所述第二交互模型基于所述第一更新状态得到第二交互动作,在虚拟交互环境中执行所述第二交互动作,得到第二更新状态;基于所述第二更新状态计算第二收益值,基于所述第二收益值调整所述第二交互模型的参数。
[0009]在一些实施例中,所述交互模型是通过多个训练任务进行训练的,所述参考交互轨迹获取模块包括:统计胜利数量得到单元,用于对于当前训练任务,对所述多个训练任务对应的各个交互方的训练胜利数量进行统计,得到各个所述交互方对应的统计胜利数量;选取概率确定单元,用于基于所述统计胜利数量确定所述交互方对应的候选交互轨迹的选取概率,其中,所述统计胜利数量与所述选取概率成负相关关系;选取单元,用于基于各个所述交互方对应的候选交互轨迹的选取概率,从候选交互轨迹中选取当前训练任务对应的参考交互轨迹;其中,所述交互方对应的候选交互轨迹的胜利方为所述交互方。
[0010]在一些实施例中,所述选取单元用于:确定各个所述交互方对应的候选交互轨迹被选为参考交互轨迹的选取次数;确定最小的选取次数是否大于预设数量阈值,若是,则基于各个所述交互方对应的候选交互轨迹的选取概率,从候选交互轨迹中选取当前训练任务对应的参考交互轨迹;若否,则将最小的选取次数所对应的候选交互轨迹作为当前训练任务对应的参考交互轨迹。
[0011]在一些实施例中,所述选取单元用于:基于各个所述交互方对应的候选交互轨迹的选取概率,从目标数值范围中确定所述候选交互轨迹对应的数值范围;在所述目标数值范围中产生随机数;将包括所述随机数的数值范围所对应的候选交互轨迹,作为当前训练任务对应的参考交互轨迹。
[0012]在一些实施例中,所述交互模型是通过多个训练任务进行训练的,所述当前初始交互状态选取模块用于:对于各个训练任务,当第一次选择所述参考交互轨迹中的当前初始交互状态时,则获取参考交互轨迹中各个交互状态对应的选取概率,基于所述交互状态对应的选取概率从所述参考交互轨迹中选取当前初始交互状态;否则,按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态。
[0013]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型
[0014]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;当确定当前训练交互模型满足当前初始交互状态对应的模型
收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型
[0015]上述交互模型训练方法、装置、计算机设备和存储介质,由于可以基于参考交互轨迹进行训练,并按照交互顺序的倒序从参考交互轨迹中选取当前初始交互状态,因此可以使得交互模型随着模型训练的进行,在模型越来越智能的情况下,需要探索的空间越来越大,从而使得模型能够更有效率的进行探索,因此提高了模型训练的效率。而且是当当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,进行当前初始交互状态的更新,从而使得模型在当前初始交互状态下进行了充分的学习,故提高了模型的交互准确度。
附图说明
[0016]图1为一些实施例中交互模型训练方法的应用环境图;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交互模型训练方法,其特征在于,所述方法包括:获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型。2.根据权利要求1所述的方法,其特征在于,所述当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤包括:确定所述参考交互轨迹所对应的交互胜利方,获取所述交互胜利方在模型训练过程中的胜利比例;当所述胜利比例大于比例阈值时,确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤。3.根据权利要求1所述的方法,其特征在于,待训练的交互模型包括进行交互的第一交互模型以及第二交互模型;所述根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型包括:所述第一交互模型基于当前初始交互状态得到第一交互动作,在虚拟交互环境中控制第一虚拟对象执行所述第一交互动作,得到第一更新状态;基于所述第一更新状态计算第一收益值,基于所述第一收益值调整所述第一交互模型的参数;所述第二交互模型基于所述第一更新状态得到第二交互动作,在虚拟交互环境中执行所述第二交互动作,得到第二更新状态;基于所述第二更新状态计算第二收益值,基于所述第二收益值调整所述第二交互模型的参数。4.根据权利要求1所述的方法,其特征在于,所述交互模型是通过多个训练任务进行训练的,所述获取参考交互轨迹包括:对于当前训练任务,对所述多个训练任务对应的各个交互方的训练胜利数量进行统计,得到各个所述交互方对应的统计胜利数量;基于所述统计胜利数量确定所述交互方对应的候选交互轨迹的选取概率,其中,所述统计胜利数量与所述选取概率成负相关关系;基于各个所述交互方对应的候选交互轨迹的选取概率,从候选交互轨迹中选取当前训练任务对应的参考交互轨迹;其中,所述交互方对应的候选交互轨迹的胜利方为所述交互方。5.根据权利要求4所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:陈昱何嘉民周正石悦鑫朱展图朱晓龙刘永升
申请(专利权)人:超参数科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1