提供强化学习代理和用其控制自主交通工具的方法和装置制造方法及图纸

技术编号:35729312 阅读:24 留言:0更新日期:2022-11-26 18:28
本发明专利技术涉及提供强化学习代理和用其控制自主交通工具的方法和装置。与使用强化学习代理来控制自主交通工具相关的方法包括多个训练会话,其中该代理与环境交互,多个训练会话分别具有不同初始值并且产生取决于状态(s)和动作(a)的状态动作分位数函数方法进一步包括第一不确定性估计,其基于针对状态动作对评估的多个状态动作分位数函数的平均数的、与相对于分位数τ的变异性相关的变异性测量和第二不确定性估计,其基于针对状态动作对评估的所述多个状态动作分位数函数的、与集合变异性相关的变异性测量状态动作对可以与在执行之前验证的试验性决策相对应,或与代理对指导附加训练的可能决策相对应。对应。对应。

【技术实现步骤摘要】
提供强化学习代理和用其控制自主交通工具的方法和装置


[0001]本公开涉及自主交通工具领域。具体地,本公开描述了用于提供强化学习代理和用于使用该强化学习代理控制自主交通工具的方法和装置。

技术介绍

[0002]通常将自主交通工具的决策制定任务划分为战略、战术和操作决策制定,也被称为导航、指导和稳定。简而言之,战术决策是指高级别,通常为离散的决策,诸如何时在高速公路上改变车道或在十字路口处是停止还是前进。本专利技术主要针对战术决策制定领域。
[0003]强化学习(RL)正在被应用于针对自主驾驶的决策制定。在初期工作中由RL训练的代理可能只被预期为在接近训练分布的情况下输出合理决策。实际上,这些方法的根本问题是,无论代理面临什么情况,这些代理始终都会输出决策,而没有关于决策的不确定性或代理在其训练期间是否已经经历了类似情况的任何建议或指示。例如,如果在具有迎面而来的交通工具交通的情景中部署了针对单向高速公路驾驶先前训练的代理,该代理仍然会产生决策,而没有这些决策的质量很可能低得多的任何警告。训练不足的更微妙的情况是这样一种情况,代理已经被暴本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种使用强化学习RL代理控制自主交通工具的方法(100),所述方法包括:多个训练会话(110

1、
……
、110

K),其中所述RL代理与包括所述自主交通工具的环境交互,每个训练会话具有不同初始值并且产生取决于状态s和动作a的状态动作分位数函数决策制定(112),其中所述RL代理输出与所述自主交通工具的控制相关的至少一个试验性决策;第一不确定性估计(114),所述第一不确定性估计(114)基于针对与所述试验性决策相对应的状态动作对评估的多个状态动作分位数函数的平均数的、与相对于分位数τ的变异性相关的变异性测量第二不确定性估计(116),所述第二不确定性估计(116)基于针对与所述试验性决策相对应的状态动作对评估的所述多个状态动作分位数函数的、与集合变异性相关的变异性测量以及交通工具控制(118),其中根据所述第一估计不确定性和/或所述第二估计不确定性来执行所述至少一个试验性决策。2.一种提供用于决策制定的强化学习RL代理以用于控制自主交通工具的方法(200),所述方法包括:多个训练会话(210

1、......、210

K),其中所述RL代理与包括所述自主交通工具的环境(E1)交互,每个训练会话具有不同初始值并且产生取决于状态s和动作a的状态动作分位数函数数函数第一不确定性估计(214),所述第一不确定性估计(214)基于由训练后的RL代理针对与可能决策相对应的状态动作对评估的多个状态动作分位数函数的平均数的、与相对于分位数τ的变异性相关的变异性测量第二不确定性估计(216),所述第二不确定性估计(216)基于针对所述状态动作对评估的所述多个状态动作分位数函数的、与集合变异性相关的变异性测量以及附加训练(218),其中所述RL代理与包括所述自主交通工具的第二环境(E2)交互,其中所述第二环境与所述第一环境的不同在于增加暴露于所述第一估计不确定性和/或所述第二估计不确定性相对较高的状态动作对的子集。3.根据权利要求1或2所述的方法,其中,所述RL代理包括至少一个神经网络。4.根据前述权利要求中的任一项所述的方法,其中,所述训练会话中的每一个采用隐式分位数网络IQN,所述RL代理能够从所述隐式分位数网络推导。5.根据权利要求4所述的方法,其中,训练会话的所述初始值与随机化先验函数RPF相对应。
6.根据前述权利要求中的任一项所述的方法,其中,所述不确定性估计与组合的任意不确定性和认知不确定性相关。7.根据前述权利要求中的任一项所述的方法,其中,在所述第二不确定性估计中使用的所述变异性测量被应用于相应状态动作分位数函数的采样预期值8.根据前述权利要求中的任一项所述的方法,其中,所述变异性测量为以下中的一项或多项:方差、范围、偏差、变异系数、熵。9.根据权利要求1和3至8中的任一项所述的方法,其中,仅在所述第一估计不确定性和所述第二估计不确定性小于相应预定义阈值的情况下,所述试验性决策被执行。10.根据权利要求9所述的方法,其中:所述决策制定包括输出多个试验性决策的所述RL代理;以及所述交通...

【专利技术属性】
技术研发人员:卡尔约翰
申请(专利权)人:沃尔沃自主解决方案公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1