当前位置: 首页 > 专利查询>许铮铧专利>正文

基于因果奖励的多任务自监督强化学习制造技术

技术编号:37709322 阅读:6 留言:0更新日期:2023-06-02 00:00
本发明专利技术提出一种智能体自监督强化学习状态空间探索及多任务目标迁移方法。首先,本发明专利技术将状态表征多等分后将相邻时间步状态转移定义为一个二分因果图,并通过多头自注意力矩阵的约束以保证了因果图的一致性,在此基础上,基于因果互信息所反映出的模型预测的不确定性能通过以更大的奖励的形式反馈给探索智能体进行更多样化的样本的探索。在估计因果互信息时,通过混合高斯模型对历史状态分布进行建模,其能够很好的解决任意划分状态条件概率分布的估计和采样问题,同时将期望最大化算法在图形处理单元上进行实现以更快的并行处理大量的数据。最后,本发明专利技术通过训练两个相对独立的智能体,使得他们之间能有相互合作的增益同时,使得模型有更低的耦合度,其极大的有助于模型的训练调试和有意义的模块有效性分析。于模型的训练调试和有意义的模块有效性分析。

【技术实现步骤摘要】
基于因果奖励的多任务自监督强化学习


[0001]本专利技术涉及智能体自监督强化学习状态空间探索及多任务目标迁移方法。

技术介绍

[0002]强化学习的目标是训练智能体在不确定的环境中完成任务。智能体或称智能代理是感知其环境、自主采取行动以实现目标并可以通过学习或使用知识来提高其性能的任何事物。在每个时间间隔,代理从环境接收观察和奖励,并向环境发送动作。奖励是衡量前一个动作在完成任务目标方面的成功程度。
[0003]虽然传统的强化学习在单个任务上取得了成功,但当智能体的环境发生变化时,或需要完成新任务时,其经常不能达到训练环境下的表现,在这种情况下就需要在每个遇到的新的任务时进行重现的训练,其通常是费时费力的。具体地,当在训练过程中将机械手臂环境中的物体放置在特定位置后,并不能保证智能体能正确将物体放置在新给定的位置,这个问题在环境中存在多个物体且多个物体间有相互作用的情况下会更加显著。
[0004]一般的强化学习方法的一个限制是智能体只能使用从环境中获得的外部奖励进行学习。自监督的强化学习试图通过为智能体配备许多内部驱动或内在奖励信号来解决这一缺点,提高了样本采样效率,为智能体快速下游迁移提供了解决方案,而提高自监督强化学习性能的关键挑战是状态空间的探索。以前的方法通过重新访问以前看到的罕见目标,或从生成模型中采样目标来探索。或者基于最大熵策略,使智能体能够通过最大化信息理论目标来发展各种技能,使得智能体尽可能均匀的探索状态空间,而无需任何外部奖励,使得智能体在奖励稀疏的环境中进行高效学习。同时,得益于探索所的状态的多样性,使得智能体学习到的技能更易于迁移到新的的目标任务上。
[0005]学习达到许多不同目标的问题通常通过学习单一目标条件策略的无模型方法来解决,但是,通过单一的或稀疏的奖励使得学习到的策略缺乏对其他目标任务的泛化能力。最近的工作将这些方法与生成训练目标的各种方法相结合。这些方法可以在模拟机器人领域取得显着的性能,但是,它们专注于智能体可以直接感知低维环境状态的设置。一些工作试图通过使用对比或重建的表征学习将这些无模型方法扩展到视觉目标。然而,这些方法难以进行有意义的探索,因为没有明确的奖励信号可用于指导智能体解决任务。另一些工作试图通过生成类似于已经看到的目标来进行探索,但不能探索到真正新颖的状态。

技术实现思路

[0006]针对现有技术的不足,本专利技术拟解决的技术问题是,通过无监督的目标条件强化学习范式使得智能体在完全没有监督的情况下学习环境中的许多不同技能,然后通过用户指定的目标图像解决任务,而无需进一步训练。
[0007]为实现上述目的,本专利技术采用的技术方案如下:1.建模问题为部分可观马尔科夫决策过程,其中智能体接受图像为观测变量,智能体动作为可作用于环境的干预变量,状态空间为高维表征。智能代理包含两个组件:策略
和学习算法。该策略是从当前环境观察到要采取的行动的概率分布的映射。在代理中,策略由深度神经网络实现。学习算法根据动作、观察和奖励不断更新策略参数。学习算法的目标是找到一个最优策略,使任务期间获得的预期累积长期奖励最大化。探索智能体的奖励为基于因果推断的条件熵增,其中因为因果互信息的估计需要对状态的任意二划分的条件分布进行建模。如图1,本方法将状态表征进行了多等分以便通过借助因果推断方法对强化学习状态空间进行探索。同时,本方法也可视为借助强化学习对以下因果互信息进行最大化的过程,在此本文使用了因果互信息估计。其通过最大化动作和一部分状态,他们与下一状态的条件因果互信息在实现最大化智能体对于外部环境的干预的同时,还使得智能体探索低概率密度的区域,如下所示:其中A为智能体的动作,S为当前状态,S

为下一状态,其可以写作条件互信息I([A,S
i
];S
j

|S)I([A,S
i
];S
j

|S),其中s的下标i和j对应对应多等分的状态的表征中的每个等分。因果互信息作为强化学习的积累奖励,因果互信息的最大化能够使得智能体获取环境转移中的因果关系,从而使得智能体学习的过程更有效率的同时,其学到的技能更具有泛化性。其中对于状态表征的划分和由相邻时间步定义的二分因果图1所示。
[0008]利用深度网络学习状态转移模型,其建模了不同相邻时间步状态表征的非线性映射。其中在本方法中将第零步状态表征设置为全零的张量,同时第零步智能体不进行动作因此将动作表征也定义为全零的张量,本方法状态转移模型建模为一个循环神经网络,其主体结构采用了多头自注意力机制实现。
[0009]通过对多头自注意力矩阵进行约束以保证的多头自注意力机制对于因果图表示的一致性。以下第一行为经过软最大化后的多头自注意力矩阵,第二行为对多头自注意力矩阵取平均后处以温度参数,第三行为多头自注意力和平均自注意力矩阵相乘再乘上对状态表征的划分数m。Atten
htm
=SoftMax(Q
htd
,K
hmd
))
[0010]其中,Q
htd
和K
hmd
为多头自注意力机制的查询(query)和键(key),下标中的h对应多头自注意力的每个头(head),H为多头自注意力总的头数,d为向量维度,t和m对应多等分的状态的表征。同时为了保证训练的稳定性,本方法采用了门循环单元(GRU)取代对多头自注意力机制的的残差结构。在决定在前时间步的因果图连接时,本方法通过对平均自注意力矩阵作布尔运算,当其中元素为每行最大k个值时设置为1否则设置为0,或者通过一个阈值的选取作二值化操作如下所示:
其中,通过第一行得到的阈值,从第二行中能得到因果图中第t个当前状态表征与第m个下一状态表征的连接与否。
[0011]2.在本方法中运用和了混合高斯模型首先对状态划分的联合分布进行建模,因为其对于任意的条件分布混合高斯模型可以提供解析式以进行概率估计和采样。其如图2所示。在训练的过程中通过只训练新探索的状态并将其与历史状态的混合高斯模型进行比较融合的出新的更新后的混合高模型以消除因每次有新加入数据而不得不重新对混合高斯模型进行训练的必要性。
[0012]3.交替地将探索智能体和任务实现智能体部署到环境中进行新状态的探索或任务实现的尝试。其中探索智能体和任务实现智能体通过在状态转移模型中进行想象的一系列动作来发现遥远的目标,以找到具有高预期信息增益的新状态。之后,探索智能体和任务实现智能体执行那些想象环境中的动作以发现新的态,这些动作可能会将代理引导到超出历史状态分布边界数步的状态,因为否则模型不会有很高的不确定性或信息增益。最后,因为任务实现智能体是基于状态条件的多目标实现智能体,这些发现的状态被用作任务实现智能体的不同目标。在这个无监督的训练阶段之后,任务实现智能体在部署时无需任何额外的学习即可解决指定为目标图像的任务。
[0013]与现有技术相比,本专利技术的有益效果是:1.提出了将状态表征多等分后将相邻时间步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.建模问题为部分可观马尔科夫决策过程,其中智能体接受图像为观测变量,智能体动作为可作用于环境的干预变量,状态空间为高维表征,智能体包含两个组件:策略和学习算法;该策略是从当前环境观察到要采取的行动的概率分布的映射;在智能体中,策略由深度神经网络实现;学习算法根据动作、观察和奖励不断更新策略参数;学习算法的目标是找到一个最优策略,使任务期间获得的预期累积长期奖励最大化。2.探索智能体的奖励为基于因果推断的条件熵增,其中因为因果互信息的估计需要对状态的任意二划分的条件分布进行建模;如图1,本方法将状态表征进行了多等分以便通过借助因果推断方法对强化学习状态空间进行探索,其通过最大化动作和一部分状态,他们与下一状态的条件因果互信息在实现最大化智能体对于外部环境的干预的同时,还使得智能体探索低概率密度的区域,如下所示:其中A为智能体的动作,S为当前状态,S

为下一状态,其可以写作条件互信息I([A,S
i
];S

j
|S)I([A,S
i
];S

j
|S),其中S的下标i和j对应对应多等分的状态的表征中的每个等分,其中对于状态表征的划分和由相邻时间步定义的二分因果图1所示。3.利用深度网络学习状态转移模型,其建模了相邻时间步状态表征的非线性映射,其中在本方法中将第零步状态表征设置为全零的张量,同时第零步智能体不进行动作因此将动作表征也定义为全零的张量,本方法状态转移模型建模为一个循环神经网络,其主体结构采用了多头自注意力机制实现;通过对多头自注意力矩阵进行约束以保证的多头自注意力机制对于因果图表示的一致性,以下第一行为经过软最大化后的多头自注意力矩阵,第二行为对多头自注意力矩阵取平均后处以温度参数,第三行为多头自注意力和平均自注意力矩阵相乘再乘上对状态表征的划分数m。Atten
htm
=SoftMax(Q
htd
,K
hmd
))4.其中,Q
htd
Q
htd
和K
hmd
K
hmd
为多头自注意力机制的查询(query)和键(key),下标中的h对应多头自注意力的每个头(head),H为多头自注意力总的头数,d为向量维度,t和m对应多等分的状态的表征;同时为了保证训练的稳定性,本方法采用了门循环单元(GRU)取代对多头自注意力机制的的残差结构;在决定在前时间步的因果图连接时,本方法通过对平均自注意力矩阵作布尔运算,当其中元素为每行最大k个值时设置为1否则设置为0,或者通过一个阈值的选取作二值化操作如下所示:阈值的选取作二值化操作如下所示:其中,通过第一行得到的阈值,从第二行中能得到因果图中第t个当前状态表征与第m
个下一状态表征的连接与否。5.在本方法中运用和了混合高斯模型首先对状态划分的联合分布进行建模,因为其对于任意的条件分布混合高斯模型可以提供解析式以进行概率估计和采样;其如图2所示,在训练的过程中通过只训练新探索的状态并将其与历史状态的混合高斯模型进行比较融合的出新的更新后的混合高模型以消除因每次有新加入数据而不得不重新对混合高斯模型进行训练的必要性。6.交替地训练探索智能体和任务实现智能体,并将探索智能体和任务实现智能体分别部署到环境中进行新状态的探索或任务实现的尝试;初始步骤:在初始阶段,随机初始化循环神经网络,策略网络,价值网络的权重和混合高斯模型的均值和方差;通过将此随机初始化的强化学习算法部署在环境中通过控制机械手臂进行随机探索获得初始的经验数据;随机探索指智能体通过感知其环境、随机的采取行动,并在每个时间间隔从环境接收观测(图像)和奖励(标量数值),并向中介器(机械手臂)发送动作(关节角度,速度等);重复这一过程到一定的时间步长所收集到的每个时间步上的观测、奖励和所采取的动作...

【专利技术属性】
技术研发人员:许铮铧周杰
申请(专利权)人:许铮铧
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1