一种应用于多任务学习的策略模型训练方法、装置及设备制造方法及图纸

技术编号：36814181 阅读：9 留言：0更新日期：2023-03-09 01:02

本发明专利技术实施例涉及人工智能领域，公开了一种应用于多任务学习的策略模型训练方法、装置及设备。本发明专利技术实施例涉及的应用于多任务学习的策略模型训练方法包括：获取目标任务集；调用第一策略模型对每个目标任务进行训练，得到第二策略模型以及第一子训练结果；对所述第二策略模型依次进行第一参数调整，得到第三策略模型以及第二子训练结果；对所述第三策略模型依次进行第二参数调整，得到第四策略模型；确定所述第四策略模型为应用于多任务学习的策略模型。这样，策略模型在多任务学习中受到多任务间梯度差异的影响会减少，进而使任务间的训练进度更平均，提高训练效率。提高训练效率。提高训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于多任务学习的策略模型训练方法、装置及设备

[0001]本专利技术实施例涉及人工智能领域，尤其涉及一种应用于多任务学习的策略模型训练方法、装置及设备。

技术介绍

[0002]随着强化学习的技术发展，用户不再仅满足策略模型对于单任务的学习能力，对于策略模型面对多任务学习的应用需求也逐步提高。
[0003]现有策略模型面对多任务的训练方法多数为交替训练法。具体表现为：首先对策略模型输入至少两个不同的任务，然后过程中分别针对每个任务进行策略模型相应参数地调整，直至策略模型对该任务的训练结果更接近期望值。
[0004]但是，由于每个任务相较于策略模型的梯度是不同的，因此，策略模型可能会受到不同梯度的影响，对任务的训练带有倾向性，策略模型学习过程中会存在策略模型对某一个任务学习不完整的情况，进而影响最终的学习结果。而上述交替训练方法中，仅通过任务的训练结果进行策略模型的优化，没有对任务相对于策略模型的梯度进行处理，为了保证任务训练的完整性以及均匀性，在训练过程中策略模型可能会经历多次试错以及优化的过程。这样会使实际的训练效率较低。

技术实现思路

[0005]鉴于上述问题，本专利技术提出了一种应用于多任务学习的策略模型训练方法、装置及设备，以解决现有策略模型学习多任务学习过程因多任务训练进程不同而导致的效率低下的问题。
[0006]第一方面，本专利技术提出了一种应用于多任务学习的策略模型训练方法，所述方法包括：获取目标任务集，所述目标任务集中包括至少两个目标任务；调用第一策略模型依...

【技术保护点】

【技术特征摘要】
1.一种应用于多任务学习的策略模型训练方法，其特征在于，所述方法包括：获取目标任务集，所述目标任务集中包括至少两个目标任务；调用第一策略模型依次对所述目标任务集中的每个目标任务进行训练，得到第二策略模型以及至少两个第一子训练结果，所述至少两个第一子训练结果与所述至少两个目标任务一一对应；根据每个第一子训练结果，对所述第二策略模型依次进行第一参数调整，得到第三策略模型以及至少两个第二子训练结果，所述至少两个第一子训练结果与所述至少两个第二子训练结果一一对应，每次所述第一参数调整后得到的第二子训练结果优于对应调整前的第一子训练结果；根据预设的梯度约束集以及每个第二子训练结果，对所述第三策略模型依次进行第二参数调整，得到第四策略模型，所述第四策略模型中每个目标任务的梯度满足预设需求；确定所述第四策略模型为应用于多任务学习的策略模型。2.如权利要求1所述的方法，其特征在于，所述目标任务集的表现形式包括：目标任务集合和/或目标任务分布集合。3.如权利要求1所述的方法，其特征在于，所述梯度约束集由所述每个目标任务对应的权重以及预设的优势函数得到，所述梯度约束集用于表征所述每个目标任务的加权性能提升下限。4.如权利要求3所述的方法，其特征在于，所述优势函数用于表征所述第三策略模型进行所述第二参数调整时的性能变化，所述第四策略模型对应的性能与所述第三策略模型对应的性能之间的差异，与所述优势函数成正比。5.如权利要求1所述的方法，其特征在于，所述对所述第三策略模型依次进行第二参数调整，还包括：获取所述第三策略模型的第一状态分布，所述第一状态分布用于表征所述第三策略模型当前进行的第二参数调整后的模型状态；根据预设规则，将所述第一状态分布近似计算为所述第三策略模型下次待进行第二参数调整时所对应的模型状态。6.如权利要求5所述的方...

【专利技术属性】
技术研发人员：徐博，白丰硕，王燕娜，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人