交互模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：24062069 阅读：34 留言：0更新日期：2020-05-08 23:04

本申请涉及一种交互模型训练方法、装置、计算机设备和存储介质，涉及人工智能，交互模型训练方法包括：获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，第一交互动作是通过将第一交互状态特征，输入到待训练的第一交互模型中确定的；获取目标虚拟对象执行第一交互动作得到的收益，作为第一收益；将第一交互状态特征以及第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；根据第一策略判别值计算得到第二收益；根据第一收益以及第二收益计算得到目标收益；根据目标收益对待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。采用本方法能够提高模型训练效果。

Interactive model training methods, devices, computer equipment and storage media

全部详细技术资料下载

【技术实现步骤摘要】
交互模型训练方法、装置、计算机设备和存储介质
本申请涉及人工智能
，特别是涉及一种交互模型训练方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的不断发展，游戏逐渐成为人们热衷的娱乐节目，例如，用户可以通过多人在线战斗竞技场游戏(MultiplayerOnlineBattleArena，MOBA）与其他游戏玩家进行竞技。目前，可以利用人工智能模型进行游戏，例如在游戏玩家掉线时可以暂时托管，利用人工智能模型代替掉线的真实玩家与另一游戏真实玩家进行游戏对抗。人工智能模型需要预先利用训练数据进行训练，目前的人工智能模型的训练大多是依赖于不断的对战训练从而得到进化，然而，经常存在训练得到的模型不能满足现实需要，模型训练效果差的问题。
技术实现思路
基于此，有必要针对上述模型训练效果差的技术问题，提供一种交互模型训练方法、装置、计算机设备和存储介质。一种交互模型训练方法，所述方法包括：获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待...

【技术保护点】
1.一种交互模型训练方法，所述方法包括：/n获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待训练的第一交互模型中确定的；/n获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益；/n将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；/n根据所述第一策略判别值计算得到第二收益，所述第一策略判别值与所述第二收益成正相关关系；/n根据所述第一收益以及所述第二收益计算得到目标收益；/n根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。...

【技术特征摘要】
1.一种交互模型训练方法，所述方法包括：
获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待训练的第一交互模型中确定的；
获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益；
将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；
根据所述第一策略判别值计算得到第二收益，所述第一策略判别值与所述第二收益成正相关关系；
根据所述第一收益以及所述第二收益计算得到目标收益；
根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取目标交互动作以及所述目标交互动作对应的目标交互状态特征，所述目标交互动作为所述目标交互状态特征对应的状态下，符合所述目标交互策略的交互动作；
根据所述目标交互状态特征以及所述目标交互动作进行模型训练，得到所述目标策略判别模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标交互状态特征以及所述目标交互动作进行模型训练，得到所述目标策略判别模型包括：
将所述目标交互状态特征以及所述目标交互动作输入到待训练的策略判别模型中，得到第二策略判别值；
根据所述第二策略判别值得到第二模型损失值，根据所述第二模型损失值调整待训练的策略判别模型的模型参数，得到所述目标策略判别模型，所述第二策略判别值与所述第二模型损失值成负相关关系。

4.根据权利要求2所述的方法，其特征在于，所述目标交互策略为预设交互用户级别对应的交互策略，所述获取目标交互动作以及所述目标交互动作对应的目标交互状态特征包括：
获取根据所述预设交互用户级别的用户操作得到的交互动作，作为目标交互动作；
获取所述目标交互动作对应的交互状态特征，作为目标交互状态特征。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：
根据所述第一策略判别值得到第一模型损失值，所述第一策略判别值与所述第一模型损失值成正相关关系；
根据所述第一模型损失值调整所述目标策略判别模型的模型参数。

6.根据权利要求1所述的方法，其特征在于，所述获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作包括：
获取待训练的第一交互模型对应的对战模型，作为第二交互模型；
控制所述待训练的第一交互模型与所述第二交互模型在虚拟交互环境中进行交互，得到所述第一交互模型对应的交互记录数据；
根据所述交互记录数据获取得到第一交互状态特征以及第一交互动作。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：
将更新后的第一交互模型作为待训练的第一交互模型，进入控制所述待训练的第一交互模型与所述第二交互模型在虚拟交互环境中进行交互，得到所述第一交互模型对应的交互记录数据的步骤，直至更新后的第一交互模型收敛或者模型训练次数达到预设次数。

8.根据权利要求1所述的方法，其特征在于，所述获取目标虚拟对象执行所述第一交互动作...

【专利技术属性】
技术研发人员：邱福浩，韩国安，李晓倩，王亮，付强，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人