一种应用于多任务学习的策略模型训练方法、装置及设备制造方法及图纸

技术编号:36814181 阅读:9 留言:0更新日期:2023-03-09 01:02
本发明专利技术实施例涉及人工智能领域,公开了一种应用于多任务学习的策略模型训练方法、装置及设备。本发明专利技术实施例涉及的应用于多任务学习的策略模型训练方法包括:获取目标任务集;调用第一策略模型对每个目标任务进行训练,得到第二策略模型以及第一子训练结果;对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及第二子训练结果;对所述第三策略模型依次进行第二参数调整,得到第四策略模型;确定所述第四策略模型为应用于多任务学习的策略模型。这样,策略模型在多任务学习中受到多任务间梯度差异的影响会减少,进而使任务间的训练进度更平均,提高训练效率。提高训练效率。提高训练效率。

【技术实现步骤摘要】
一种应用于多任务学习的策略模型训练方法、装置及设备


[0001]本专利技术实施例涉及人工智能领域,尤其涉及一种应用于多任务学习的策略模型训练方法、装置及设备。

技术介绍

[0002]随着强化学习的技术发展,用户不再仅满足策略模型对于单任务的学习能力,对于策略模型面对多任务学习的应用需求也逐步提高。
[0003]现有策略模型面对多任务的训练方法多数为交替训练法。具体表现为:首先对策略模型输入至少两个不同的任务,然后过程中分别针对每个任务进行策略模型相应参数地调整,直至策略模型对该任务的训练结果更接近期望值。
[0004]但是,由于每个任务相较于策略模型的梯度是不同的,因此,策略模型可能会受到不同梯度的影响,对任务的训练带有倾向性,策略模型学习过程中会存在策略模型对某一个任务学习不完整的情况,进而影响最终的学习结果。而上述交替训练方法中,仅通过任务的训练结果进行策略模型的优化,没有对任务相对于策略模型的梯度进行处理,为了保证任务训练的完整性以及均匀性,在训练过程中策略模型可能会经历多次试错以及优化的过程。这样会使实际的训练效率较低。

技术实现思路

[0005]鉴于上述问题,本专利技术提出了一种应用于多任务学习的策略模型训练方法、装置及设备,以解决现有策略模型学习多任务学习过程因多任务训练进程不同而导致的效率低下的问题。
[0006]第一方面,本专利技术提出了一种应用于多任务学习的策略模型训练方法,所述方法包括:获取目标任务集,所述目标任务集中包括至少两个目标任务;调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;确定所述第四策略模型为应用于多任务学习的策略模型。
[0007]在一些可能的实施方式中,所述目标任务集的表现形式包括:目标任务集合和/或
目标任务分布集合。这样,应用于多任务学习的策略模型使用场景包括,待学习任务可以为连续的任务分布或者分散的独立任务。
[0008]在一些可能的实施方式中,所述梯度约束集由所述每个目标任务对应的权重以及预设的优势函数得到,所述梯度约束集用于表征所述每个目标任务的加权性能提升下限。这样,通过对策略模型对应每个目标任务的性能进行范围约束,来确定每个目标任务在进行梯度调整时的可调整范围。
[0009]在一些可能的实施方式中,所述优势函数用于表征所述第三策略模型进行所述第二参数调整时的性能变化,所述第四策略模型对应的性能与所述第三策略模型对应的性能之间的差异,与所述优势函数成正比。这样,可以基于上述关系确认临近的未来状态分布下的优势函数期望。
[0010]在一些可能的实施方式中,所述对所述第三策略模型依次进行第二参数调整,还包括:获取所述第三策略模型的第一状态分布,所述第一状态分布用于表征所述第三策略模型当前进行的第二参数调整后的模型状态;根据预设规则,将所述第一状态分布近似计算为所述第三策略模型下次待进行第二参数调整时所对应的模型状态。这样,可以确认临近的未来状态分布下的优势函数期望,并以此进行当前目标任务后续迭代过程或者剩余目标任务的参数调整。
[0011]在一些可能的实施方式中,所述模型状态包括:所述第三策略模型对应的参数、环境交互结果以及经验数据。这样,通过多类型数据进行参考,可以保证后续参数调整的结果准确性。
[0012]在一些可能的实施方式中,所述每个目标任务对应的权重用于调整对应目标任务的学习速度。这样,可以使多任务学习的进度保持平均或满足用户预设需求。
[0013]第二方面,本专利技术还提出了一种应用于多任务学习的策略模型训练装置,所述装置包括:获取模块,用于获取目标任务集,所述目标任务集中包括至少两个目标任务;调用模块,用于调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;第一参数调整模块,用于根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;第二参数调整模块,用于根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;输出模块,用于确定所述第四策略模型为应用于多任务学习的策略模型。
[0014]第三方面,本专利技术还提出了一种电子设备,所诉电子设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存储可执行指令,所述可执行指令运行时使所述处理器执行第一方面或者第二方面任一可能的实施方式中的策略模型训练方法。
[0015]第四方面,本专利技术还提出了一种计算机可读存储介质,所述存储介质中存储有可执行指令,所述可执行指令运行时使计算设备执行第一方面或者第二方面任一可能的实施方式中的策略模型训练方法。
[0016]本专利技术提出了一种应用于多任务学习的策略模型训练方法,本方案中,首先,获取目标任务集,所述目标任务集中包括至少两个目标任务;然后,调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;接着,根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;再根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;最后确定所述第四策略模型为应用于多任务学习的策略模型。可见,在调用策略模型分别对每个目标任务进行优化训练后,再根据预设的梯度约束集对每个目标任务相对于策略模型的梯度进行约束,以减缓每个目标任务之间的梯度差异。这样,策略模型在多任务学习中受到多任务间梯度差异的影响会减少,进而使任务间的训练进度更平均,提高训练效率。
附图说明
[0017]图1是本专利技术提出的应用于多任务学习的策略模型训练方法流程示意图;图2是本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于多任务学习的策略模型训练方法,其特征在于,所述方法包括:获取目标任务集,所述目标任务集中包括至少两个目标任务;调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练,得到第二策略模型以及至少两个第一子训练结果,所述至少两个第一子训练结果与所述至少两个目标任务一一对应;根据每个第一子训练结果,对所述第二策略模型依次进行第一参数调整,得到第三策略模型以及至少两个第二子训练结果,所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应,每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果;根据预设的梯度约束集以及每个第二子训练结果,对所述第三策略模型依次进行第二参数调整,得到第四策略模型,所述第四策略模型中每个目标任务的梯度满足预设需求;确定所述第四策略模型为应用于多任务学习的策略模型。2.如权利要求1所述的方法,其特征在于,所述目标任务集的表现形式包括:目标任务集合和/或目标任务分布集合。3.如权利要求1所述的方法,其特征在于,所述梯度约束集由所述每个目标任务对应的权重以及预设的优势函数得到,所述梯度约束集用于表征所述每个目标任务的加权性能提升下限。4.如权利要求3所述的方法,其特征在于,所述优势函数用于表征所述第三策略模型进行所述第二参数调整时的性能变化,所述第四策略模型对应的性能与所述第三策略模型对应的性能之间的差异,与所述优势函数成正比。5.如权利要求1所述的方法,其特征在于,所述对所述第三策略模型依次进行第二参数调整,还包括:获取所述第三策略模型的第一状态分布,所述第一状态分布用于表征所述第三策略模型当前进行的第二参数调整后的模型状态;根据预设规则,将所述第一状态分布近似计算为所述第三策略模型下次待进行第二参数调整时所对应的模型状态。6.如权利要求5所述的方...

【专利技术属性】
技术研发人员:徐博白丰硕王燕娜
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1