【技术实现步骤摘要】
一种稀疏高维状态下不完全信息场景的无人驾驶训练方法
[0001]本专利技术涉及无人驾驶训练方法
,具体为一种稀疏高维状态下不完全信息场景的无人驾驶训练方法。
技术介绍
[0002]目前,无人驾驶飞机、无人驾驶车辆等智能设备可以通过自身所携带的各类传感设备(如高清摄像头、激光雷达等)获取环境信息后结合深度学习获得感知环境的能力。而在决策部分,依靠基于规则的模型来应对大部分常见场景是可以行的,但是如果出现规则模型中不适用的极端复杂场景时,如果仍然依靠基于规则的模型来进行行为决策,将会因为规则模型的局限性导致行为决策失误从而造成不良后果。为此,解决序列决策问题的强化学习方法与模仿学习方法均可以被引入来提升智能设备的智能体在自动行动场景中决策行为的能力。
[0003]强化学习策略更新的关键在于从环境中获取的奖励反馈。可以应用强化学习的场景,根据环境的特性,可分成完全信息场景和不完全信息场景。所谓完全信息场景就是指智能体所处训练环境中所有信息都可观测的,那么与之对应的不完全信息场景就是环境中智能体仅能获取局部的观测信息。然而,在许多不完全信息复杂场景中,不仅存在场景状态稀疏的特性,而且存在奖励稀疏问题,即只有少量的动作能够使得智能体获得奖励或惩罚,这使得原本以奖励反馈作为这类场景的一种补充信息来利用强化学习方法驱动智能体提升决策能力的训练模式出现了问题,这种情况会使得算法的学习效果差,这种问题称之为“稀疏奖励”问题。直接应用强化学习算法去训练智能体决策模型,很难取得良好的训练结果。
[0004]现有四种方 ...
【技术保护点】
【技术特征摘要】
1.一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,其特征在于,包括以下步骤:步骤一、训练准备:S1、策略网络构建:先构建策略网络的目标函数,然后对策略网络进行内部设计;S2、随机蒸馏网络构建:随机蒸馏网络参考RED算法,首先构造一个蒸馏网络与一个随机网络f
θ
(s,a),蒸馏网络包含输入层,4层神经元数量为128的全连接层,其中激活函数为leaky_relu与输出层,而随机网络仅包含输入层,1层神经元数量为128的全连接层,其中激活函数为leaky_relu和输出层,然后向蒸馏网络与随机网络输入相同的专家动作轨迹数据(s
E
,a
E
),并固定随机网络的参数;S3、模仿学习网络构建:模仿学习网络包含三层,第一层使用了32个的过滤器,每个过滤器尺寸为8*8,步长为4;第二层使用了64个的过滤器,每个过滤器尺寸为4*4,步长为2;第三层使用了64个的过滤器,每个过滤器尺寸为3*3,步长为1;S4、判别器网络构建:判别器网络结构包含输入层,第一个神经元数量为128的全连接层,激活函数为leaky_relu,第二个神经元数量为64的全连接层,激活函数为leaky_relu,第三个神经元数量为32的全连接层,激活函数为leaky_relu,以及最后的输出层;S5、Q网络构建:Q网络Q
θ
的结构则由输入层,第一个神经元数量为400的全连接层,激活函数为relu,第二个神经元数量为300的全连接层,激活函数为relu以及输出层构成;步骤二、策略网络预训练:将抽取的专家动作轨迹数据中的专家状态/动作输入到模仿学习网络,输出模仿学习输出的参数作为预训练的策略网络参数用于初始化策略网络;步骤三、奖励函数获取:将抽取的专家动作轨迹数据中的专家状态/动作分别输入到随机蒸馏网络和奖励塑形,分别输出得到专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数;步骤四、奖励函数组合:将专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数作为输入进行线性组合,输出各自以一定的比例组成新的奖励函数RD_reward;步骤五、策略网络训练:将线性组合的奖励函数输出到策略网络,策略网络分别与随机蒸馏网络、奖励塑形、仿真模拟训练环境交互,即输出预测动作,得到预测状态,以更新策略网络参数;步骤六、对抗网络训练:策略网络输出预测动作和预测状态到辨别器,辨别器输出靠近专家动作轨迹分布所获得的奖励函数Dis_reward,并与步骤五中经过训练的线性组合的奖励函数RD_reward进行组合,从而得到稳定可靠的奖励函数Reward,将其作为最终的奖励函数输入到策略网络中,再重复步骤五进行策略网络的迭代训练,直至通过策略网络和判别器网络之间的对抗过程使得策略网络输出具有最大化Q值的动作,最终输出智能体的策略网络参数。2.根据权利要求1所述的一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,其特征在于:所述目标函数的构建方法为:假设为策略网络,θ表示当前策略网络的参数,θ
old
表示之前的策略网络的参数,表示之前的策略网络的参数,表示在新旧策略网络下给定状态形成相同动作的概率比例,为了对策略进行比较,引入优势函数,参见以下公式:
δ
t
=r
t
+γV(S
t+1
)
‑
V(S
t
)其中λ∈[0,1],表示一个超参数,优势函数是从t时刻起的一个策略的优势值的估计,通过GAE(Generalized Advantage Estimation)实现对的估计,参考PPO算法,策略网络的目标函数定义为公式如下所示:其中是策略更新后新旧策略的概率分布的差值,是值函数网络的损失函数,S(P
θ
](s
t
)表示策略网络的熵,c1和c2是系数,的引入,是因为策略网络与值函数网络共享参数,在上式中,∈是超参数,通常将q
t
(θ)比率限制在[1
‑
∈,1+∈],确...
【专利技术属性】
技术研发人员:魏强,漆光聪,张教松,
申请(专利权)人:四川观想科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。