一种稀疏高维状态下不完全信息场景的无人驾驶训练方法技术

技术编号:37247939 阅读:13 留言:0更新日期:2023-04-20 23:27
本发明专利技术提供一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,涉及无人驾驶训练方法技术领域。该稀疏高维状态下不完全信息场景的无人驾驶训练方法,包括以下步骤:训练准备、策略网络预训练、奖励函数获取、奖励函数组合、策略网络训练以及对抗网络训练。该训练方法针对高维状态信息场景,设计了策略网络的内部结构,以提高神经网络对于场景的感知与表征能力,特别在策略网络的训练阶段,通过设计全新的组合奖励函数来完全取代人为奖励设置且缓解了“稀疏奖励”问题,该奖励函数的反馈提高了用于智能体决策的策略网络参数更新的稳定性。此外,用行为克隆替换策略网络参数随机初始化,提高初始采样数据的质量,加速整个方法的收敛速度。的收敛速度。的收敛速度。

【技术实现步骤摘要】
一种稀疏高维状态下不完全信息场景的无人驾驶训练方法


[0001]本专利技术涉及无人驾驶训练方法
,具体为一种稀疏高维状态下不完全信息场景的无人驾驶训练方法。

技术介绍

[0002]目前,无人驾驶飞机、无人驾驶车辆等智能设备可以通过自身所携带的各类传感设备(如高清摄像头、激光雷达等)获取环境信息后结合深度学习获得感知环境的能力。而在决策部分,依靠基于规则的模型来应对大部分常见场景是可以行的,但是如果出现规则模型中不适用的极端复杂场景时,如果仍然依靠基于规则的模型来进行行为决策,将会因为规则模型的局限性导致行为决策失误从而造成不良后果。为此,解决序列决策问题的强化学习方法与模仿学习方法均可以被引入来提升智能设备的智能体在自动行动场景中决策行为的能力。
[0003]强化学习策略更新的关键在于从环境中获取的奖励反馈。可以应用强化学习的场景,根据环境的特性,可分成完全信息场景和不完全信息场景。所谓完全信息场景就是指智能体所处训练环境中所有信息都可观测的,那么与之对应的不完全信息场景就是环境中智能体仅能获取局部的观测信息。然而,在许多不完全信息复杂场景中,不仅存在场景状态稀疏的特性,而且存在奖励稀疏问题,即只有少量的动作能够使得智能体获得奖励或惩罚,这使得原本以奖励反馈作为这类场景的一种补充信息来利用强化学习方法驱动智能体提升决策能力的训练模式出现了问题,这种情况会使得算法的学习效果差,这种问题称之为“稀疏奖励”问题。直接应用强化学习算法去训练智能体决策模型,很难取得良好的训练结果。
[0004]现有四种方法可以缓解“稀疏奖励”问题,即,奖励塑形,课程学习,层次强化学习和基于逆强化学习实现的模仿学习,但它们各自都存在缺陷。
[0005]第一种方法是奖励塑形,它是通过人为设计,修改仿真模拟的训练场景中的奖励设置来针对智能体训练过程中的每一个决策动作增加奖励。考虑到不同场景复杂度的不同,设置奖励函数时难免对场景理解存在偏差,不合理的奖励设置难以驱使智能体向着策略更优的方向学习,同时对于不同场景需要进行针对性的设计,这也不符合通用人工智能的研究理念。
[0006]第二种方法是课程学习,让智能体“循序渐进”完成学习的方法,即,先从简单场景开始训练智能体,等训练达到一定水平,再将这个智能体放到复杂场景中继续训练。与奖励塑形类似,课程学习最关键的是对于课程进行精细的人工设计,因此,也存在难以泛化的缺陷。
[0007]第三种方法就是层次强化学习。一般将问题任务划分层次,一个层次表示了当前任务的状态和行动,另一个层次表示了更高层次的状态和行动,即高层次将整个任务过程分成了几个部分,而另一个低层次则分别完成每一个小部分的工作。目前层次分解大多需要人工设计,依据任务本身的层次性,自动化的层次分解,以及与领域先验知识的结合仍然是研究的热门方向。
[0008]第四种就是基于逆强化学习实现的模仿学习,它与前三种方法本质的区别在于它是利用专家动作轨迹数据学习一个奖励函数从而缓解“稀疏奖励”问题,而以上三种方法都难免有人为因素干预,从而使得训练得到的模型在决策中存在一定风险。但该方法的缺点是在学习奖励函数的过程中,将强化学习算法作为整个逆强化学习训练过程中的一个子过程,从而使得计算量偏大、收敛速度慢,在不完全信息复杂场景中很难应用。
[0009]在这四个解决方法中,前三个都需要人为因素参与,在一定程度上增加了模型正确训练的风险,而逆强化学习则完全是从已有数据中学习知识来提供解决方案,对于上述风险有一定的规避效果,但是其计算量偏大、收敛速度慢,造成难以在不完全信息复杂场景中应用。
[0010]此外,虽然利用模仿学习的模式可以最大程度上避免人为奖励设计失误的影响,但当前最有效的生成对抗模仿学习(Generative adversarial imitation learning,GAIL)及其他的变种,由于继承自生成对抗网络(Generative Adversarial Networks,GAN)的思想,故GAN中固有的问题,比如“模式崩溃(Mode Collapse)”,也会在生成对抗模仿学习及其变种方法中存在,造成模型训练不稳定的问题,从而也在一定程度上影响智能体决策能力的提升。

技术实现思路

[0011](一)解决的技术问题以及专利技术目的
[0012]针对现有技术的不足,本专利技术提供了一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,解决了如下的技术问题:
[0013]第一、人为因素干预影响训练得到的模型在决策中存在一定风险;
[0014]第二、面临生成对抗模仿学习及其变种存在的模型训练不稳定的问题;
[0015]第三、进行智能体训练时计算量偏大、收敛速度慢的问题。
[0016]本专利技术为了解决以上问题,提出一种面向稀疏高维状态下不完全信息场景的智能体训练方法及电子装置,目的在于在降低训练复杂度加速训练的收敛过程的同时保证在不完全信息场中缓解“稀疏奖励”的问题,从而得到达到甚至超过人类决策的模型,既大大降低训练过程中的运算量,又降低迁移至真实环境后成本,避免生成对抗模仿学习及其变种存在的模型训练不稳定的问题,减少智能体在真实场景中决策出现致命失误的概率。
[0017]为了避免由此产生的固定奖励函数对于不完全信息的仿真模拟场景中一些复杂状况评判不准确的情况,本专利技术采取了奖励塑形与固定奖励函数组合的方式构建一个更为“理解”复杂仿真模拟场景的奖励函数来驱动智能体策略网络参数更新;为了避免生成对抗模仿学习中存在的训练不稳定的缺陷,本专利技术设计了判别器以及随机蒸馏网络相互结合在一起增加模型训练稳定性的同时让学习到的近似奖励函数对于当前环境的“理解”更为准确,从而做出最为合理的评判;为了避免其自身存在的计算复杂度高的缺陷,采用了在模型循环迭代开始训练之前,就通过专家动作轨迹数据输入模仿学习训练得到预训练的策略网络参数,并将预训练的策略网络参数输入智能体的策略网络对其进行初始化,这样就会大大降低训练过程中的运算量。
[0018](二)技术方案
[0019]为实现以上目的,本专利技术通过以下技术方案予以实现:一种稀疏高维状态下不完
全信息场景的无人驾驶训练方法,包括以下步骤:
[0020]步骤一、训练准备:
[0021]S1、策略网络构建:先构建策略网络的目标函数,然后对策略网络进行内部设计。
[0022]S2、随机蒸馏网络构建:随机蒸馏网络参考RED算法,首先构造一个蒸馏网络与一个随机网络f
θ
s,a。蒸馏网络包含输入层,4层神经元数量为128的全连接层,其中激活函数为leaky_relu与输出层,而随机网络仅包含输入层,1层神经元数量为128的全连接层,其中激活函数为leaky_relu和输出层,然后向蒸馏网络与随机网络输入相同的专家动作轨迹数据s
E
,a
E
,并固定随机网络的参数。
[0023]S3、模仿学习网络构建:模仿学习网络包含三层,第一层使用了32个的过滤器,每个过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,其特征在于,包括以下步骤:步骤一、训练准备:S1、策略网络构建:先构建策略网络的目标函数,然后对策略网络进行内部设计;S2、随机蒸馏网络构建:随机蒸馏网络参考RED算法,首先构造一个蒸馏网络与一个随机网络f
θ
(s,a),蒸馏网络包含输入层,4层神经元数量为128的全连接层,其中激活函数为leaky_relu与输出层,而随机网络仅包含输入层,1层神经元数量为128的全连接层,其中激活函数为leaky_relu和输出层,然后向蒸馏网络与随机网络输入相同的专家动作轨迹数据(s
E
,a
E
),并固定随机网络的参数;S3、模仿学习网络构建:模仿学习网络包含三层,第一层使用了32个的过滤器,每个过滤器尺寸为8*8,步长为4;第二层使用了64个的过滤器,每个过滤器尺寸为4*4,步长为2;第三层使用了64个的过滤器,每个过滤器尺寸为3*3,步长为1;S4、判别器网络构建:判别器网络结构包含输入层,第一个神经元数量为128的全连接层,激活函数为leaky_relu,第二个神经元数量为64的全连接层,激活函数为leaky_relu,第三个神经元数量为32的全连接层,激活函数为leaky_relu,以及最后的输出层;S5、Q网络构建:Q网络Q
θ
的结构则由输入层,第一个神经元数量为400的全连接层,激活函数为relu,第二个神经元数量为300的全连接层,激活函数为relu以及输出层构成;步骤二、策略网络预训练:将抽取的专家动作轨迹数据中的专家状态/动作输入到模仿学习网络,输出模仿学习输出的参数作为预训练的策略网络参数用于初始化策略网络;步骤三、奖励函数获取:将抽取的专家动作轨迹数据中的专家状态/动作分别输入到随机蒸馏网络和奖励塑形,分别输出得到专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数;步骤四、奖励函数组合:将专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数作为输入进行线性组合,输出各自以一定的比例组成新的奖励函数RD_reward;步骤五、策略网络训练:将线性组合的奖励函数输出到策略网络,策略网络分别与随机蒸馏网络、奖励塑形、仿真模拟训练环境交互,即输出预测动作,得到预测状态,以更新策略网络参数;步骤六、对抗网络训练:策略网络输出预测动作和预测状态到辨别器,辨别器输出靠近专家动作轨迹分布所获得的奖励函数Dis_reward,并与步骤五中经过训练的线性组合的奖励函数RD_reward进行组合,从而得到稳定可靠的奖励函数Reward,将其作为最终的奖励函数输入到策略网络中,再重复步骤五进行策略网络的迭代训练,直至通过策略网络和判别器网络之间的对抗过程使得策略网络输出具有最大化Q值的动作,最终输出智能体的策略网络参数。2.根据权利要求1所述的一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,其特征在于:所述目标函数的构建方法为:假设为策略网络,θ表示当前策略网络的参数,θ
old
表示之前的策略网络的参数,表示之前的策略网络的参数,表示在新旧策略网络下给定状态形成相同动作的概率比例,为了对策略进行比较,引入优势函数,参见以下公式:
δ
t
=r
t
+γV(S
t+1
)

V(S
t
)其中λ∈[0,1],表示一个超参数,优势函数是从t时刻起的一个策略的优势值的估计,通过GAE(Generalized Advantage Estimation)实现对的估计,参考PPO算法,策略网络的目标函数定义为公式如下所示:其中是策略更新后新旧策略的概率分布的差值,是值函数网络的损失函数,S(P
θ
](s
t
)表示策略网络的熵,c1和c2是系数,的引入,是因为策略网络与值函数网络共享参数,在上式中,∈是超参数,通常将q
t
(θ)比率限制在[1

∈,1+∈],确...

【专利技术属性】
技术研发人员:魏强漆光聪张教松
申请(专利权)人:四川观想科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1