System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多任务强化学习方法及系统技术方案_技高网

一种多任务强化学习方法及系统技术方案

技术编号:40956290 阅读:2 留言:0更新日期:2024-04-18 20:33
本发明专利技术提出一种多任务强化学习方法,包括:以混合专家模型构建强化学习模型,将该强化学习模型根据功能划分为多个模块,并对该模块进行对比学习训练;其中,以该混合专家模型部分为该强化学习模型的共享模块;对某一任务的每一步执行过程中,基于该任务的时序信息和任务信息,选取该模块构成模块组合,以该模块组合执行当前步的任务。本发明专利技术还提出一种多任务强化学习系统,以及一种用于实现多任务强化学习的数据处理装置。

【技术实现步骤摘要】

本专利技术属于强化学习,特别涉及一种多任务强化学习方法及系统


技术介绍

1、尽管深度强化学习已经在诸多领域如机器人控制与玩游戏上取得了许多令人瞩目的进展,但大多数方法通常都是孤立处理不同任务,从而使得很难将已学到的技能用于新的任务。

2、多任务强化学习目标在于在学习不同任务的过程中通过使用共享部分神经网络,以更有效率的方式同时学习多个任务。

3、多任务强化学习中存在一个重大挑战:如果两个任务之间是不相关的或者是冲突的,那么将这两个任务放在一起同时学习可能是会对彼此有害的,提升一个任务的性能的同时可能会降低另一个任务的性能。这个现象在多任务学习中被称为负迁移问题。负迁移的产生可以归因于使用相同的模型去学习不同的任务,为了解决这一问题,现有的多任务强化学习方法在训练的过程中大多采用了模块化的思想,希望不同的模块学到不同的功能,使其能够专注于各自的技能或特性,从而在学习多个任务时不会相互干扰或者产生冲突。但是现有的方法并没有很好的解决负迁移的问题,多任务学习的性能仍差于每个任务单独学习的性能,在提升训练的效率与减少模型参数量的同时,也牺牲了性能。


技术实现思路

1、针对上述问题,本专利技术提出一种多任务强化学习方法,包括:以混合专家模型构建强化学习模型,将该强化学习模型根据功能划分为多个模块,并对该模块进行对比学习训练;其中,以该混合专家模型部分为该强化学习模型的共享模块;对某一任务的每一步执行过程中,基于该任务的时序信息和任务信息,选取该模块构成模块组合,以该模块组合执行当前步的任务。

2、本专利技术所述的多任务强化学习方法,对该模块进行对比学习训练中,该强化学习模型的对比损失函数lcon:

3、

4、其中,查询向量qi为第i个模块于时刻t时的输出,正样本对ki+为第i个模块于t的下一时刻的输出,负样本对ki-为其它模块的输出,τ为超参数,k为该模块的个数。

5、本专利技术所述的多任务强化学习方法,还包括:使用软行为者批评算法训练该强化学习模型;其中,对于n个任务的多任务优化,当平等的看待每个任务,则损失函数ltotal为:

6、

7、li为第i个任务的损失函数,li=lrl+βlcon,lrl为软行为者批评算法的损失函数,β为超参数。

8、本专利技术所述的多任务强化学习方法,执行该任务的步骤包括:基于该任务的时序信息ht和任务信息ztask,在每一步执行过程中获取软注意力权重αj:

9、α1,α2,...,αk=softmax(w(ztask;ht))

10、则该任务于当前步的输出zenc为多个模块的输出的加权累加:

11、

12、其中,第j个模块的输出st为当前步的输入,ht=lstm(st:ht-1),lstm(·)为长短时记忆网络,ht-1为上一步的隐状态,ztask=g(zτ),zτ为该任务的独热编码,g(·)为该强化学习模型的任务编码器,w(·)为全连接层,softmax(·)为归一化函数。

13、本专利技术还提出一种多任务强化学习系统,包括:划分模块,用于以混合专家模型构建强化学习模型,将该强化学习模型根据功能划分为多个模块,并对该模块进行对比学习训练;其中,以该混合专家模型部分为该强化学习模型的共享模块;组合模块,用于对某一任务的每一步执行过程中,基于该任务的时序信息和任务信息,选取该模块构成模块组合,以该模块组合执行当前步的任务。

14、本专利技术所述的多任务强化学习系统,该划分模块中,对该模块进行对比学习训练中,该强化学习模型的对比损失函数lcon:

15、

16、其中,查询向量qi为模块i于时刻t时的输出,正样本对ki+为模块i于t的下一时刻的输出,负样本对ki-为其它模块的输出,τ为超参数,k为该模块的个数。

17、本专利技术所述的多任务强化学习系统,还包括:训练模块,用于使用软行为者批评算法训练该强化学习模型;其中,对于n个任务的多任务优化,当平等的看待每个任务,则损失函数ltotal为:

18、

19、li为第i个任务的损失函数,li=lrl+βlcon,lrl为软行为者批评算法的损失函数,β为超参数。

20、本专利技术所述的多任务强化学习系统,该组合模块包括:

21、基于该任务的时序信息ht和任务信息ztask,在每一步执行过程中获取软注意力权重αj:

22、α1,α2,...,αk=softmax(w(ztask;ht))

23、则该任务于当前步的输出zenc为多个模块的输出的加权累加:

24、

25、其中,第j个模块的输出st为当前步的输入,ht=lstm(st:ht-1),lstm(·)为长短时记忆网络,ht-1为上一步的隐状态,ztask=g(zτ),zτ为该任务的独热编码,g(·)为该强化学习模型的任务编码器,w(·)为全连接层,softmax(·)为归一化函数。

26、本专利技术还提出一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,当该计算机可执行指令被执行时,实现如前所述多任务强化学习方法。

27、本专利技术还提出一种数据处理装置,包括如前所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,实现多任务强化学习。

本文档来自技高网...

【技术保护点】

1.一种多任务强化学习方法,其特征在于,包括:

2.如权利要求1所述的多任务强化学习方法,其特征在于,对该模块进行对比学习训练中,该强化学习模型的对比损失函数Lcon:

3.如权利要求2所述的多任务强化学习方法,其特征在于,还包括:使用软行为者批评算法训练该强化学习模型;其中,对于N个任务的多任务优化,当平等的看待每个任务,则损失函数Ltotal为:

4.如权利要求2所述的多任务强化学习方法,其特征在于,执行该任务的步骤包括:

5.一种多任务强化学习系统,其特征在于,包括:

6.如权利要求5所述的多任务强化学习系统,其特征在于,该划分模块中,对该模块进行对比学习训练中,该强化学习模型的对比损失函数Lcon:

7.如权利要求6所述的多任务强化学习系统,其特征在于,还包括:训练模块,用于使用软行为者批评算法训练该强化学习模型;其中,对于N个任务的多任务优化,当平等的看待每个任务,则损失函数Ltotal为:

8.如权利要求6所述的多任务强化学习系统,其特征在于,该组合模块包括:

9.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,当该计算机可执行指令被执行时,实现如权利要求1~4任一项所述多任务强化学习方法。

10.一种数据处理装置,包括如权利要求9所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,实现多任务强化学习。

...

【技术特征摘要】

1.一种多任务强化学习方法,其特征在于,包括:

2.如权利要求1所述的多任务强化学习方法,其特征在于,对该模块进行对比学习训练中,该强化学习模型的对比损失函数lcon:

3.如权利要求2所述的多任务强化学习方法,其特征在于,还包括:使用软行为者批评算法训练该强化学习模型;其中,对于n个任务的多任务优化,当平等的看待每个任务,则损失函数ltotal为:

4.如权利要求2所述的多任务强化学习方法,其特征在于,执行该任务的步骤包括:

5.一种多任务强化学习系统,其特征在于,包括:

6.如权利要求5所述的多任务强化学习系统,其特征在于,该划分模块中,对该模块进行对比学习训练中,该强化学习模型的...

【专利技术属性】
技术研发人员:张蕊蓝思明易琦彭少辉郭家明高云凯吴凡
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1