交互模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：30405974 阅读：18 留言：0更新日期：2021-10-20 11:10

本申请涉及一种交互模型训练方法、装置、计算机设备和存储介质。所述方法包括：获取参考交互轨迹；所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态；按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态；根据当前初始交互状态对待训练的交互模型进行训练，得到当前初始交互状态对应的当前训练交互模型；当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时，返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤，得到更新后的当前初始交互状态，以继续进行模型训练，直至满足训练停止条件，得到已训练的目标交互模型。采用本方法能够提高模型训练效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
交互模型训练方法、装置、计算机设备和存储介质

[0001]本申请涉及人工智能
，特别是涉及一种交互模型训练方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着互联网技术的不断发展，游戏逐渐成为人们热衷的娱乐节目，基于虚拟环境的游戏越来越普遍，例如，游戏中，敌我双方可以根据游戏目标在游戏应用中进行对抗，以获取胜利。
[0003]在虚拟环境中，可以通过人工智能进行竞技，例如在游戏玩家掉线时进行托管，利用交互模型代替玩家在虚拟环境中进行竞技。然而目前的交互模型存在训练效率低的问题。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种交互模型训练方法、装置、计算机设备和存储介质。
[0005]一种交互模型训练方法，所述方法包括：获取参考交互轨迹；所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态；按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态；根据当前初始交互状态对待训练的交互模型进行训练，得到当前初始交互状态对应的当前训练交互模型；当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时，返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤，得到更新后的当前初始交互状态，以继续进行模型训练，直至满足训练停止条件，得到已训练的目标交互模型。
[0006]一种交互模型训练装置，所述装置包括：参考交互轨迹获取模块，用于获取参考交互轨迹；所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态...

【技术保护点】

【技术特征摘要】
1.一种交互模型训练方法，其特征在于，所述方法包括：获取参考交互轨迹；所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态；按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态；根据当前初始交互状态对待训练的交互模型进行训练，得到当前初始交互状态对应的当前训练交互模型；当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时，返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤，得到更新后的当前初始交互状态，以继续进行模型训练，直至满足训练停止条件，得到已训练的目标交互模型。2.根据权利要求1所述的方法，其特征在于，所述当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时，返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤包括：确定所述参考交互轨迹所对应的交互胜利方，获取所述交互胜利方在模型训练过程中的胜利比例；当所述胜利比例大于比例阈值时，确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件，返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤。3.根据权利要求1所述的方法，其特征在于，待训练的交互模型包括进行交互的第一交互模型以及第二交互模型；所述根据当前初始交互状态对待训练的交互模型进行训练，得到当前初始交互状态对应的当前训练交互模型包括：所述第一交互模型基于当前初始交互状态得到第一交互动作，在虚拟交互环境中控制第一虚拟对象执行所述第一交互动作，得到第一更新状态；基于所述第一更新状态计算第一收益值，基于所述第一收益值调整所述第一交互模型的参数；所述第二交互模型基于所述第一更新状态得到第二交互动作，在虚拟交互环境中执行所述第二交互动作，得到第二更新状态；基于所述第二更新状态计算第二收益值，基于所述第二收益值调整所述第二交互模型的参数。4.根据权利要求1所述的方法，其特征在于，所述交互模型是通过多个训练任务进行训练的，所述获取参考交互轨迹包括：对于当前训练任务，对所述多个训练任务对应的各个交互方的训练胜利数量进行统计，得到各个所述交互方对应的统计胜利数量；基于所述统计胜利数量确定所述交互方对应的候选交互轨迹的选取概率，其中，所述统计胜利数量与所述选取概率成负相关关系；基于各个所述交互方对应的候选交互轨迹的选取概率，从候选交互轨迹中选取当前训练任务对应的参考交互轨迹；其中，所述交互方对应的候选交互轨迹的胜利方为所述交互方。5.根据权利要求4所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：陈昱，何嘉民，周正，石悦鑫，朱展图，朱晓龙，刘永升，
申请(专利权)人：超参数科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人