交互任务的控制方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24995037 阅读:32 留言:0更新日期:2020-07-24 17:58
本申请涉及人工智能技术领域,提供了一种交互任务的控制方法、装置、电子设备及存储介质,该方法包括:获取交互任务中的交互状态;将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略;其中,所述机器学习模型由包括内部收益模型的机器训练网络训练而得,所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值;所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度;基于所述控制策略控制所述目标对象进行交互操作。本申请在机器学习模型的训练过程中采用内部收益模型计算表征模型训练收敛程度的内部收益值,可有效避免对模型训练过度,提高模型训练效率。

【技术实现步骤摘要】
交互任务的控制方法、装置、电子设备及存储介质
本申请涉及人工智能
,具体而言,本申请涉及一种交互任务的控制方法、装置、电子设备及存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。机器学习(MachineLearning,ML)是人工智能技术中一门多领域交叉学科,其专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。在机器学习中可采用强化学习的方法训练AI模型,使得AI模型模拟人类的操作方式与人类进行交互。在强化学习过程中,其涉及到一个探索与利用的均衡问题,探索可以帮助模型充分了解运行环境,利用可以帮助模型选择当前最优的策略执行;但是如果探索过多模型难以收敛,利用过多模型容易陷入最优解,导致模型能力较低。现有技术中,解决平衡探索和利用的均衡问题时,一般采用探索策略中的贪心策略(ε-greed本文档来自技高网...

【技术保护点】
1.一种交互任务的控制方法,其特征在于,包括:/n获取交互任务中的交互状态;/n将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略;其中,所述机器学习模型由包括内部收益模型的机器训练网络训练而得,所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值;所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度;/n基于所述控制策略控制所述目标对象进行交互操作。/n

【技术特征摘要】
1.一种交互任务的控制方法,其特征在于,包括:
获取交互任务中的交互状态;
将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略;其中,所述机器学习模型由包括内部收益模型的机器训练网络训练而得,所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值;所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度;
基于所述控制策略控制所述目标对象进行交互操作。


2.根据权利要求1所述的方法,其特征在于,所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型,其中,所述外部收益模型对用于训练的交互数据进行计算得到外部收益值,所述外部收益值为控制目标对象进行交互操作所得收益;所述机器学习模型的训练步骤包括:
将所述自对弈模型自对弈时生成的交互数据输入所述收益模型,获得训练数据;所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互;
基于所述训练数据训练所述机器学习模型。


3.根据权利要求2所述的方法,其特征在于,所述基于所述训练数据训练所述机器学习模型,包括:
将所述训练数据输入所述机器学习模型,获得更新后的机器学习模型;
将所述更新后的机器学习模型反馈至所述自对弈模型,迭代所述训练数据,以迭代更新所述机器学习模型。


4.根据权利要求2所述的方法,其特征在于,所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型,获得训练数据,包括:
将所述自对弈模型自对弈生成的交互数据进行特征抽取,获得目标状态特征;其中,所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征;
将所述目标状态特征输入所述收益模型,获得训练数据。


5.根据权利要求3所述的方法,其特征在于,所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型,获得训练数据,包括:
将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型,获得所述自对弈模型自对弈时生成的交互数据;
将所述交互数据输入所述收益模型,获得训练数据和更新后的内部收益模型。


6.根据权利要求5所述的方法,其特征在于,所述将所述交互数据输入所述收益模型,获得训练数据和更新后的内部收益模型,包括:
将所述交互数据输入所述内部收益模型获得内部收益值;
将所述交互数...

【专利技术属性】
技术研发人员:李晓倩邱福浩韩国安付强王亮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1