一种基于样本混合优先度的离散优先采样方法和装置制造方法及图纸

技术编号:38814387 阅读:16 留言:0更新日期:2023-09-15 19:53
本发明专利技术实施例涉及深度强化学习技术领域,公开了一种基于样本混合优先度的离散优先采样方法和装置。该方法包括:计算每个经验样本的碰撞价值与目标价值;根据样本的碰撞价值与目标价值计算样本状态优先度;根据状态优先度以及评估网络确定的TD误差确定每个样本的混合优先度;使用混合优先度更新经验池,并计算每个样本混合优先度的离散度;基于每个样本的离散度采用全优先度或部分优先度抽样方式计算每个样本的抽样概率;根据抽样概率的大小抽取批量样本对深度强化学习网络进行训练。实施本发明专利技术实施例,可以能够提高低混合优先度经验样本的利用效率及模型学习效率。样本的利用效率及模型学习效率。样本的利用效率及模型学习效率。

【技术实现步骤摘要】
一种基于样本混合优先度的离散优先采样方法和装置


[0001]本专利技术涉及深度强化学习
,具体涉及一种基于样本混合优先度的离散优先采样方法和装置。

技术介绍

[0002]现有的很多在线异策略深度强化学习算法,例如SAC(Soft Actor

Critic软演员

评论家算法)、改进SAC、TD3(Twin Delayed Deep Deterministic Policy Gradient双延迟深度确定性策略梯度算法)、DDPG(Deep Deterministic Policy Gradient深度确定性的策略梯度算法)以及CGAR(Clustering Granulation Attribute Reduction基于聚类粒化的属性约简)算法等,在上述在线异策略深度强化学习算法中,均采用优先经验回放的方式优化其自身网络结构参数,优先经验回放方法是直接由评估网络的损失(TD

error)衡量经验样本的优先度,然后根据样本优先度有高到低的顺序取小批量高误差经验样本训练。这种方式下样本优先度完全由评估网络决定,而评估网络的过估计会导致样本的学习价值偏离其实际学习价值,这会在模型后续学习过程中产生噪音影响,不利于模型快速学习优化。

技术实现思路

[0003]针对所述缺陷,本专利技术实施例公开了一种基于样本混合优先度的离散优先采样方法和装置,可以能够提高低混合优先度经验样本的利用效率及模型学习效率。
[0004]本专利技术实施例第一方面公开一种基于样本混合优先度的离散优先采样方法,所述方法包括:
[0005]计算经验池中每个样本的碰撞价值和目标价值,并根据样本碰撞价值与目标价值计算样本状态优先度;
[0006]根据所述样本状态优先度及评估网络确定的TD误差(TD

error)确定每个样本的混合优先度;
[0007]使用所述混合优先度更新所述经验池,并计算每个样本的离散度;
[0008]基于所述每个样本的离散度采用全优先度或部分优先度抽样方式计算每个样本的抽样概率;
[0009]根据所述抽样概率的大小抽取批量样本对深度强化学习网络进行训练。
[0010]作为一种可选的实施方式,在本专利技术实施例第一方面中,计算经验池中每个样本的碰撞价值,包括:
[0011]根据第i个样本当前状态s和下一状态s

下,机器人与障碍物的最小距离和最大距离的比值,确定第i个样本的碰撞价值:
[0012]g
v
=|l

v

l
v
|
[0013]其中,g
v
为第i个样本的碰撞价值,l
v
、l

v
分别为第i个样本在当前状态s和下一状态s

下的碰撞价值,且:
[0014]l
v


ε*lgε
[0015]l

v


ε

*lgε

[0016]其中,ε为第i个样本在当前状态s下,机器人与障碍物的最小距离与最大距离的比值,ε

为第i个样本在下一状态s

下,机器人与障碍物的最小距离与最大距离的比值。
[0017]作为一种可选的实施方式,在本专利技术实施例第一方面中,计算经验池中每个样本的目标价值,包括:
[0018]根据第i个样本在s、s

状态下,机器人离目标点距离与初始距离的比值,确定第i个样本的目标价值:
[0019]h
v
=|d

v

d
v
|
[0020]其中,h
v
为第i个样本的目标价值,d
v
、d

v
分别为第i个样本在s、s

状态下的目标价值,且:
[0021]d
v


η*lgη
[0022]d

v


η

*lgη

[0023]其中,η为第i个样本在s状态下,机器人离目标点距离与初始距离的比值,η

为第i个样本在s

状态下,机器人离目标点距离与初始距离的比值。
[0024]作为一种可选的实施方式,在本专利技术实施例第一方面中,首先根据所述样本的碰撞价值、目标价值确定每个样本的状态优先度;其次根据样本状态优先度与评估网络确定的TD误差确定每个样本的混合优先度,包括:
[0025]根据第i个样本的碰撞价值和目标价值确定第i个样本的状态优先度e
v

[0026]e
v
=(g
v
+h
v
)/2
[0027]根据所述状态优先度e
v
和评估网络确定的TD误差(TD

error)确定第i个样本的混合优先度:
[0028]u
i
=(δ+e
v
)2[0029]其中,u
i
为第i个样本的混合优先度,δ为TD误差。
[0030]作为一种可选的实施方式,在本专利技术实施例第一方面中,使用所述混合优先度计算每个样本的离散度,包括:
[0031]计算每个样本的离散度:
[0032]z
i
=(u
i

λ)2+ω
[0033]其中,z
i
为第i个样本在t时刻的离散度;λ表示t时刻经验池中所有样本混合优先度的均值,ω为正常数。
[0034]作为一种可选的实施方式,在本专利技术实施例第一方面中,基于所述每个样本的离散度采用全优先度或部分优先度抽样方式计算每个样本的抽样概率,包括:
[0035]采用全优先度或部分优先度抽样方式计算抽样概率:
[0036][0037]其中,p
i
为第i个样本的抽样概率,γ为优先度的调节因子,0<γ≤1,当γ=1时,采用全优先度抽样,当0<γ<1时,采用部分优先度抽样。
[0038]本专利技术实施例第二方面中公开了一种基于样本混合优先度的离散优先采样装置,其包括:
[0039]第一计算模块,用于计算经验池中每个样本的碰撞价值和目标价值,并根据样本碰撞价值与目标价值计算样本状态优先度;
[0040]确定模块,用于根据所述样本的状态优先度及评估网络确定的TD误差确定每个样本的混合优先度;
[0041]第二计算模块,用于使用所述混合优先度更新所述经验池,并计算每个样本的离散度;
[0042本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于样本混合优先度的离散优先抽样方法,其特征在于,包括:计算经验池中每个样本的碰撞价值和目标价值并根据样本的碰撞价值与目标价值计算样本状态优先度;根据样本状态优先度及评估网络确定的TD误差(TD

error)确定每个样本的混合优先度;使用所述混合优先度更新所述经验池,并计算每个样本的离散度;基于所述每个样本的离散度采用全优先度或部分优先度抽样方式计算每个样本的抽样概率;根据所述抽样概率的大小抽取批量样本对深度强化学习网络进行训练。2.根据权利要求1所述的基于样本混合优先度的离散优先采样方法,其特征在于,计算经验池中每个样本的碰撞价值,包括:根据第i个样本当前状态s和下一状态s

下,机器人与障碍物的最小距离和最大距离的比值,确定第i个样本的碰撞价值:g
v
=l
v
′‑
l
v
其中,g
v
为第i个样本的碰撞价值,l
v
、l
v

分别为第i个样本在当前状态s和下一状态s

下的碰撞价值,且:l
v


ε*lgεl
v



ε

*lgε

其中,ε为第i个样本在当前状态s下,机器人与障碍物的最小距离与最大距离的比值,ε

为第i个样本在下一状态s

下,机器人与障碍物的最小距离与最大距离的比值。3.根据权利要求2所述的基于样本混合优先度的离散优先采样方法,其特征在于,计算经验池中每个样本的目标价值,包括:根据第i个样本在s、s

状态下,机器人离目标点距离与初始距离的比值,确定第i个样本的目标价值:h
v
=d
v
′‑
d
v
其中,h
v
为第i个样本的目标价值,d
v
、d
v

分别为第i个样本在s、s

状态下目标价值,且:d
v


η*lgηd
v



η

*lgη

其中,η为第i个样本在s状态下,机器人离目标点距离与初始距离的比值,η

为第i个样本在s

状态下,机器人离目标点距离与初始距离的比值。4.根据权利要求3所述的基于样本混合优先度的离散优先采样方法,其特征在于,首先根据所述样本的碰撞价值、目标价值确定每个样本的状态优先度;其次根据样本状态优先度与评估网络确定的TD误差确定每个样本的混合优先度,包括:根据第i个样本的碰撞价值和目标价值确定第i个样本的状态优先度e
v
:e
v
=(g
v
+h
v
)/2根据所述状态优先度e
v
和评估网络确定的TD误差确定第i个样本的混合优先度:u
i
=(δ+e
v
)2其中,u
i
为第i个样本的混合优先度,δ为TD误差。5.根据权利要求4所述的基于样本混合优先度的离散优先采样方法,其特征在于,使用
所述混合优先度计算每个样本的离散度,包括:计算每个样本的离散度:z
i
=(u
i

λ)2+ω其中...

【专利技术属性】
技术研发人员:崔立志钟航杨艺李冰锋王科平李新伟钱伟
申请(专利权)人:河南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1