【技术实现步骤摘要】
一种基于样本混合优先度的离散优先采样方法和装置
[0001]本专利技术涉及深度强化学习
,具体涉及一种基于样本混合优先度的离散优先采样方法和装置。
技术介绍
[0002]现有的很多在线异策略深度强化学习算法,例如SAC(Soft Actor
‑
Critic软演员
‑
评论家算法)、改进SAC、TD3(Twin Delayed Deep Deterministic Policy Gradient双延迟深度确定性策略梯度算法)、DDPG(Deep Deterministic Policy Gradient深度确定性的策略梯度算法)以及CGAR(Clustering Granulation Attribute Reduction基于聚类粒化的属性约简)算法等,在上述在线异策略深度强化学习算法中,均采用优先经验回放的方式优化其自身网络结构参数,优先经验回放方法是直接由评估网络的损失(TD
‑
error)衡量经验样本的优先度,然后根据样本优先度有高到低的顺序取小批量高误差经验样本训练。这种方式下样本优先度完全由评估网络决定,而评估网络的过估计会导致样本的学习价值偏离其实际学习价值,这会在模型后续学习过程中产生噪音影响,不利于模型快速学习优化。
技术实现思路
[0003]针对所述缺陷,本专利技术实施例公开了一种基于样本混合优先度的离散优先采样方法和装置,可以能够提高低混合优先度经验样本的利用效率及模型学习效率。
[0004]本专利技术实施例第一方面 ...
【技术保护点】
【技术特征摘要】
1.一种基于样本混合优先度的离散优先抽样方法,其特征在于,包括:计算经验池中每个样本的碰撞价值和目标价值并根据样本的碰撞价值与目标价值计算样本状态优先度;根据样本状态优先度及评估网络确定的TD误差(TD
‑
error)确定每个样本的混合优先度;使用所述混合优先度更新所述经验池,并计算每个样本的离散度;基于所述每个样本的离散度采用全优先度或部分优先度抽样方式计算每个样本的抽样概率;根据所述抽样概率的大小抽取批量样本对深度强化学习网络进行训练。2.根据权利要求1所述的基于样本混合优先度的离散优先采样方法,其特征在于,计算经验池中每个样本的碰撞价值,包括:根据第i个样本当前状态s和下一状态s
′
下,机器人与障碍物的最小距离和最大距离的比值,确定第i个样本的碰撞价值:g
v
=l
v
′‑
l
v
其中,g
v
为第i个样本的碰撞价值,l
v
、l
v
′
分别为第i个样本在当前状态s和下一状态s
′
下的碰撞价值,且:l
v
=
‑
ε*lgεl
v
′
=
‑
ε
′
*lgε
′
其中,ε为第i个样本在当前状态s下,机器人与障碍物的最小距离与最大距离的比值,ε
′
为第i个样本在下一状态s
′
下,机器人与障碍物的最小距离与最大距离的比值。3.根据权利要求2所述的基于样本混合优先度的离散优先采样方法,其特征在于,计算经验池中每个样本的目标价值,包括:根据第i个样本在s、s
′
状态下,机器人离目标点距离与初始距离的比值,确定第i个样本的目标价值:h
v
=d
v
′‑
d
v
其中,h
v
为第i个样本的目标价值,d
v
、d
v
′
分别为第i个样本在s、s
′
状态下目标价值,且:d
v
=
‑
η*lgηd
v
′
=
‑
η
′
*lgη
′
其中,η为第i个样本在s状态下,机器人离目标点距离与初始距离的比值,η
′
为第i个样本在s
′
状态下,机器人离目标点距离与初始距离的比值。4.根据权利要求3所述的基于样本混合优先度的离散优先采样方法,其特征在于,首先根据所述样本的碰撞价值、目标价值确定每个样本的状态优先度;其次根据样本状态优先度与评估网络确定的TD误差确定每个样本的混合优先度,包括:根据第i个样本的碰撞价值和目标价值确定第i个样本的状态优先度e
v
:e
v
=(g
v
+h
v
)/2根据所述状态优先度e
v
和评估网络确定的TD误差确定第i个样本的混合优先度:u
i
=(δ+e
v
)2其中,u
i
为第i个样本的混合优先度,δ为TD误差。5.根据权利要求4所述的基于样本混合优先度的离散优先采样方法,其特征在于,使用
所述混合优先度计算每个样本的离散度,包括:计算每个样本的离散度:z
i
=(u
i
‑
λ)2+ω其中...
【专利技术属性】
技术研发人员:崔立志,钟航,杨艺,李冰锋,王科平,李新伟,钱伟,
申请(专利权)人:河南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。