一种训练端到端的自动驾驶策略的方法技术

技术编号:33123531 阅读:46 留言:0更新日期:2022-04-17 00:29
本发明专利技术公开了一种训练端到端的自动驾驶策略的方法。该方法包括:将反映驾驶环境的高维视觉信息输入到预训练的表示网络,自动学习低维信息,其中所述表示网络利用采集的示教数据进行监督学习,所述低维度信息是与自动驾驶任务相关度强的抽象特征;构建强化学习模型,智能体通过预训练的表示网络的低维信息表示结果来获取观测结果,得到优化的驾驶策略,其中强化学习过程基于离散时间的马尔可夫决策过程实现,强化学习的目标是获取最大长期回报期望。本发明专利技术在强化学习之前学习与自动驾驶任务相关度强的抽象特征表征,能够更快速、准确的获得最优驾驶策略。的获得最优驾驶策略。的获得最优驾驶策略。

【技术实现步骤摘要】
一种训练端到端的自动驾驶策略的方法


[0001]本专利技术涉及自动驾驶
,更具体地,涉及一种训练端到端的自动驾驶策略的方法。

技术介绍

[0002]自动驾驶系统构架一般分为两类,一类是模块化构架,包括感知、规划、决策、控制等关键组件;另一类是端到端构架,直接将车辆采集的输入信息(如视觉信息)映射为控制输出(如期望车速、转角命令等)。
[0003]模块化构架可以对各组件进行明确定义并开发确定性规则,可解释性好,但系统结构复杂,只能保证已建立的能力内的策略行为,对各组件进行集成后的整车性能仍需要大量的验证。
[0004]端到端方法是近年来兴起的一种自动驾驶范式,结构简单(可视为单一的学习任务),能自动学习提取与自动驾驶任务相关的特征,并自动构建针对自动驾驶任务的输入

输出直接映射能力。端到端的自动驾驶中常用的两种学习范式是模仿学习和强化学习。
[0005]模仿学习方法已经应用于自动驾驶导航中,该方法旨在通过观测到的示例数据来学习,且通常被视为监督学习问题。目前模仿学习通常需要大量来自专家的示教轨迹数据,且大多数样本是正例,反例非常难以收集。另一方面,模仿学习受限于数据分布偏移的问题,因为随着每一个时间步内误差的积累,最后可能产生灾难性的结果。
[0006]强化学习旨在通过智能体和环境的互动,来收集环境对每一步行动的奖励信号,从而学习得到从环境状态到行为的映射。现有的强化学习方法在自动驾驶上展现出巨大的潜力,深度Q网络(deep

Q
‑<br/>network,DQN)这类无模型的强化学习方法已经被应用于基于视觉输入信息的车辆控制系统中。然而,目前的强化学习和表示学习还存在一定的局限性。
[0007]1)有示教的强化学习
[0008]强化学习的一大问题就是冷启动问题,其核心原因是由高维空间中的奖励信号的稀疏性导致的。当智能体在一个新的环境中开始学习时,可能需要相当长的时间才能获得第一个正面的奖励信号。为了解决这一问题,有示教的强化学习方法尝试结合模仿学习和强化学习的思想,用模仿学习作为强化学习的最初策略来加速训练过程。强化学习可以让智能体从探索中学会最优的驾驶策略,但其样本利用率低下,这就意味着智能体在获得最优方法之前可能需要上百万次的探索。
[0009]2)表示学习
[0010]在一般的基于模仿学习的自动驾驶中,可以通过调整神经网络的参数来学习专家的示教。在基于视觉的城市道路自动驾驶任务中,输入为图像,输出为高级控制命令。对于表示学习,首先用特征提取器来编码高维输入,表示输入的观察,f表示特征提取器,则得到h=fρ(I),其中ρ表示哪个特征提取器是有效的分布,h是原始输入的低维表示。
[0011]现有的条件模仿学习(Conditional Imitation Learning,CIL)方法观测模块采用卷积神经网络实现,其余两个模块采用全连通网络实现。这些模块的输出是一个联合表
示j=J(o,m,c)=&lt;I(o),M(m),C(c)&gt;,其中o为观测值、m为高维观测的低维向量表示、c为输入的控制命令。由于驾驶环境的复杂性,模仿学习都需要收集大量的数据。
[0012]综上,目前端到端的自动驾驶方法仍然面临学习样本效率低的问题,制约了端到端自动驾驶范式的发展和应用。

技术实现思路

[0013]本专利技术的目的是克服上述现有技术的缺陷,提供一种训练端到端的自动驾驶策略的方法。该方法包括以下步骤:
[0014]将反映驾驶环境的高维视觉信息输入到预训练的表示网络,自动学习低维信息,其中所述表示网络利用采集的示教数据进行监督学习,所述低维度信息是与自动驾驶任务相关度强的抽象特征;
[0015]构建的强化学习方法,在抽象特征空间内进行探索,得到优化的驾驶策略,其中强化学习过程基于离散时间的马尔可夫决策过程实现,在状态s
t
下,智能体通过观察环境来获取观测结果o
t
,基于策略π(a
t
|s
t
)采取行动a
t
,然后获得奖励信号r
t
,随后转移到下一状态s
t+1
,强化学习的目标是获取最大长期回报期望。
[0016]与现有技术相比,本专利技术的优点在于,提供一种端到端的自动驾驶策略的加速学习框架和方法,通过表示学习获得与自动驾驶任务相关的抽象低维信息,忽略不相关的信息,后续强化学习在低维抽象特征空间中进行探索,提高了学习样本效率,加速了训练模型过程。现有技术无法获得与自动驾驶任务关联的抽象低维信息,导致学习样本效率低,本专利技术将原始的高维观测投影到低维,在强化学习过程之前学习表征,改善了端到端方法学习样本效率低的问题。
[0017]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0018]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0019]图1是根据本专利技术一个实施例的训练端到端的自动驾驶策略的框架示意图;
[0020]图2是根据本专利技术一个实施例的训练端到端的自动驾驶策略的方法流程图;
[0021]图3是根据本专利技术一个实施例的强化学习训练过程的性能对比示意图。
具体实施方式
[0022]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0023]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0024]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0025]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0026]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0027]本专利技术提出了一种结合表示学习和强化学习实现自动驾驶的技术方案。在强化学习之前,通过将环境的表示(而非从环境中感知的原始数据)作为新的状态输入到系统中,改进了强化学习算法。
[0028]参见图1所示,所提出的针对自动驾驶的端到端的学习框架,总体上包括预训练特征提取、学习环境表示网络、示教产生模块、抽象特征空间内的高效探索和策略输出等。
[0029]表示网络使用表示学习方法来获取当前观测数据的重要特征,以忽略不相关的信息,例如,可选择ResNet

34作为特征提取器。进一步地,将环境的表示作为新的状态输入到系统中,加速了强化学习的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练端到端的自动驾驶策略的方法,包括以下步骤:将反映驾驶环境的高维视觉信息输入到预训练的表示网络,自动学习低维信息,其中所述表示网络利用采集的示教数据进行监督学习,所述低维信息是与自动驾驶任务相关度强的抽象特征;构建强化学习方法,在抽象特征空间内进行探索,得到优化的驾驶策略,其中强化学习过程基于离散时间的马尔可夫决策过程实现,在状态s
t
下,智能体通过预训练的表示网络的低维信息表示结果来获取观测结果o
t
,基于策略π(a
t
|s
t
)采取行为动作a
t
,然后获得奖励信号r
t
,随后转移到下一状态s
t+1
,强化学习的目标是获取最大长期回报期望Q
π
,表示为:其中γ为衰减因子,取值在0到1之间,t表示时刻。2.根据权利要求1所述的方法,其特征在于,所述示教数据包括专家对油门、刹车、方向盘的控制数据,采用纵向比例积分微分控制和横向比例积分微分控制到达强化学习方法所产生的目标轨迹点,来模仿专家对速度和转向角的控制。3.根据权利要求1所述的方法,其特征在于,采用软演员

评论家算法进行强化学习,以评估状态价值函数以及状态

行为价值函数来最大化期望的回报,得到优化策略,其中:状态价值函数V设置为:状态

行为价值函数Q设置为:奖励函数设置为:r
t
=r
υ
+0.05r
step
+10r
col
+0.8r
safe
其中,Q
π
为长期回报的价值函数,r
υ
是交通效率,r
step
是一个恒定的步骤惩罚,r
col
是对碰撞的惩罚,r
safe
是安全控制项。4.根据权利要求3所述的方法,其特征在于,所述安全控制项r
safe
设置为:交通效率r
υ
设置为:r
υ
=υ+2(v
max

υ)其中,υ
max
指的是速度限制,λ
s
表示可调节比例系数,r1和r2表示奖励因子,d1和d2表示与目标轨迹点之间的距...

【专利技术属性】
技术研发人员:徐坤冯时羽李慧云
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1