当前位置: 首页 > 专利查询>西湖大学专利>正文

一种连续动作控制强化学习框架及学习方法技术

技术编号:38845422 阅读:15 留言:0更新日期:2023-09-17 09:56
本发明专利技术公开了一种连续动作控制强化学习框架及学习方法,涉及人工智能技术领域。该学习框架包括:多步状态转移学习模块,用于采用卷积神经网络学习多步状态转移,更新策略;期望估计模块,用于采用多步时序差分算法估计多步累计回报的期望;样本聚类模块,用于对不同类型的状态转移样本进行聚类,使每种样本被均匀采样。本发明专利技术结合了卷积神经网络、多步时序差分估计和状态转移聚类,有效提高了学习效率以及准确度,并使样本利用更充分。并使样本利用更充分。并使样本利用更充分。

【技术实现步骤摘要】
一种连续动作控制强化学习框架及学习方法


[0001]本专利技术涉及人工智能
,具体而言,涉及一种连续动作控制强化学习框架及学习方法。

技术介绍

[0002]目前,一些有效的深度强化学习算法被提出用于优化连续控制。最具代表性的是DDPG,它是基于演员评论家方法工作的。定义ρ
t
是t时刻的状态,α
t
是t时刻的动作,同时定义确定性策略如下:
[0003]α
t
=π
θ

t
)
[0004]现有的演员

评论家框架通过循环更新累计回报的估计函数和最大化这个函数的策略来训练智能体。对累计回报的估计可通过最小化如下目标函数得到。
[0005][0006]其中B是采样到的状态转移,回报以及动作的集合。
[0007][0008]在更新策略的时候需要最大化的目标函数如下:
[0009][0010]基于演员

评论家框架,DDPG主要是通过全连接的神经网络来学习单步的状态转移然后通过单步的累计回报来估计累计回报函数的期望。TD3和SAC是两个基于DDPG的改进算法,TD3通过双评论家网络,时序差分估计和高斯噪声改进了DDPG中的过估计,策略更新和探索。SAC主要通过改进目标函数提升了DDPG中的探索,它也使用了双评论家网络和时序差分估计。
[0011]但是现有技术存在如下缺点:
[0012]1.只考虑单步的状态转移会导致学习效率不够高。
[0013]2.只考虑单步的回报来估计累计回报的期望会导致估计不够准确。
[0014]3.使用随机采样的状态转移更新神经网络,容易使得样本利用不够充分。

技术实现思路

[0015]为了克服上述问题或者至少部分地解决上述问题,本专利技术提供一种连续动作控制强化学习框架及学习方法,结合了卷积神经网络、多步时序差分估计和状态转移聚类,有效提高了学习效率以及准确度,并使样本利用更充分。
[0016]为解决上述技术问题,本专利技术采用的技术方案为:
[0017]第一方面,本专利技术提供一种连续动作控制强化学习框架,包括多步状态转移学习模块、期望估计模块以及样本聚类模块,其中:
[0018]多步状态转移学习模块,用于采用卷积神经网络学习多步状态转移,更新策略;
[0019]期望估计模块,用于采用多步时序差分算法估计多步累计回报的期望;
[0020]样本聚类模块,用于对不同类型的状态转移样本进行聚类,使每种样本被均匀采样。
[0021]本框架首次结合了卷积神经网络、多步时序差分估计和状态转移聚类,它具有如下特点:使用卷积神经网络考虑多步状态转移来更新策略;使用多步时序差分算法来估计多步累计回报的期望;通过聚类现有状态转移样本,使得每种样本都被充分采样。本专利技术在针对连续控制的强化学习中通过卷积神经网络来学习多步状态转移,提高了学习效率;在上一步的基础上通过多步回报来估计累计回报的期望,让估计更准确;本专利技术还通过聚类使得不同类型的状态转移样本被均匀的采样,从而使得样本利用更充分。
[0022]基于第一方面,进一步地,上述策略为其中,α是动作、ρ指的状态、π是策略,θ
c
是卷积神经网络的参数、t为当前时刻以及n
p
为状态转移步数。
[0023]基于第一方面,进一步地,对以下目标函数进行最小化,以得到估计多步累计回报的期望,
[0024]目标函数为:
[0025][0026]中,n
p
为状态转移步数,n
q
为回报步数,B
n
为采为样到的多步状态转移、多步回报以及动作的集合,E是期望,Q是估计累计回报期望的函数,是估计Q的参数以及
[0027][0028]基于第一方面,进一步地,采用函数更新策略。
[0029]基于第一方面,进一步地,进行聚类时,将训练的总步数平均分配到不同时间段内,对每个时间段内的样本进行聚类;上述聚类的方法采用k

means算法。
[0030]基于第一方面,进一步地,采样状态转移更新函数时,对每个聚类中的样本均匀采样。
[0031]本专利技术至少具有如下优点或有益效果:
[0032]本专利技术提供一种连续动作控制强化学习框架及学习方法,结合了卷积神经网络、多步时序差分估计和状态转移聚类,在针对连续控制的强化学习中通过卷积神经网络来学习多步状态转移,提高了学习效率;在上一步的基础上通过多步回报来估计累计回报的期望,让估计更准确;本专利技术还通过聚类使得不同类型的状态转移样本被均匀的采样,从而使得样本利用更充分。
附图说明
[0033]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0034]图1为本专利技术实施例一种连续动作控制强化学习框架的示意图;
[0035]图2为本专利技术实施例中智能体在不同虚拟环境中实验训练的示意图;
[0036]图3为本专利技术实施例中进行样本聚类后得到的采样池示意图;
具体实施方式
[0037]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0038]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0040]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0041]在本专利技术实施例的描述中,“多个”代表至少2个。
[0042]实施例:
[0043]如图1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种连续动作控制强化学习框架,其特征在于,包括多步状态转移学习模块、期望估计模块以及样本聚类模块,其中:多步状态转移学习模块,用于采用卷积神经网络学习多步状态转移,更新策略;期望估计模块,用于采用多步时序差分算法估计多步累计回报的期望;样本聚类模块,用于对不同类型的状态转移样本进行聚类,使每种样本被均匀采样。2.根据权利要求1所述的一种连续动作控制强化学习框架,其特征在于,所述策略为其中,α是动作、ρ指的状态、π是策略,θ
c
是卷积神经网络的参数、t为当前时刻以及n
p
为状态转移步数。3.根据权利要求1所述的一种连续动作控制强化学习框架,其特征在于,对以下目标函数进行最小化,以得到估计多步累计回报的期望,目标函数为:其中,n
p
为状态转移步数,n
q
为回报步数,B
n
为采为样...

【专利技术属性】
技术研发人员:黄天意
申请(专利权)人:西湖大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1