当前位置: 首页 > 专利查询>南京大学专利>正文

基于自适应粒子与信念填充的部分可观察驾驶规划方法技术

技术编号:29487920 阅读:22 留言:0更新日期:2021-07-30 18:59
本发明专利技术公开一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,把自动驾驶任务建模为一个部分可观察马尔科夫决策任务,并使用一种高效在线规划求解方法对其进行实时求解。由于采用了在线求解的方法,本系统能够支持对各类道路类型、障碍物类型、智能体类型的灵活建模求解,是一种通用的智能驾驶规划方法。本方法所采用的在线规划求解方法利用自适应粒子滤波实现了信念状态的高效近似,并引入了信念填充方法对相似观察分支进行合并,这使得其能够高效地求解自动驾驶这类观察空间巨大的任务。

【技术实现步骤摘要】
基于自适应粒子与信念填充的部分可观察驾驶规划方法
本专利技术涉及一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,属于自动驾驶

技术介绍
自动驾驶任务是一个典型的部分可观察任务,一方面障碍物造成的遮挡使得自动驾驶任务中的观察不完全,另一方面,其他智能体的意图、驾驶风格等是天然的部分可观察状态,需要根据观察对其进行推测,这种观察的不完全性带来了状态的不确定性。但是目前使用的方法如有限状态机、决策树模型等方法无法很好地处理这种不确定性。部分可观察马尔可夫决策过程是对马尔可夫决策过程(MDP)的一种拓展,它额外考虑了状态的不确定性。在MDP中,智能体能够准确地知道它的状态,但在POMDP中,尽管环境的动力系统(状态转移模型)仍然是由一个MDP过程所决定,但是智能体不能直接获取该状态,而只能从它所获得观察中对当前状态进行估计。为了能够在POMDP环境中做出决策,智能体需要能够处理状态的不确定性。一个处理状态不确定性的流行的方法是维护一个信念状态,一个信念状态是一个在状态空间上的分布,其中一个状态的概率表示智能体“相信”它有多可能。但是,精确地去更新信念状态需要的计算量,当状态空间很大时,这是难以承受的,如果一个POMDP问题有着连续状态空间,则精确更新信念状态会是不可能的。一个更加实际的方法是去用一组粒子(或样本)来近似信念状态,并且用粒子滤波来对其进行更新。寻找POMDP的一个最优解有着PSPACE-complete的计算复杂度,即使使用一些近似方法,这一般依然是难以解决的。因此,在线规划这样一种在给定时间内进行规划的方法在POMDP的求解中扮演了重要角色,这有两点原因。第一,离线的方法通常需要对所有可能的情况都计算一个最优决策,但在线规划仅针对当前信念来搜索最优决策,因此极大地减少了计算量。第二,在线规划能够以近似的离线解以及其他的一些启发式方法来加速搜索。但把在线规划运用到自动驾驶任务上依然面临着两个困难,一是即时处理状态不确定性所面临的困难,二是连续观察空间所带来的困难。在处理状态不确定性时,主要的困难来自于计算量,如前所述,精确的信念更新代价过于高昂,但是,即便是近似的信念更新在在线规划中也是一个难以负担的开销,这也就是为什么大多数在线规划方法选择只在规划的最初几步对状态的不确定性进行处理,比如DESPOT和POMCPOW,这些算法倾向于对未来的状态不确定性过于乐观。即便是唯一一个对每个信念状态都用了K个粒子来进行近似的DESPOT-α算法,也无法在搜索进行到很深时对状态不确定性有很好的处理,因为,DESPOT-α所采用的序贯重要性采样(SequentialImportanceSampling)粒子滤波所产生的信念估计方差随深度指数增长,这就决定了当树很深时,它将不能很好地处理状态的不确定性。在处理连续观察任务时,在线规划面临的困难依然是计算量。在连续观察问题中,离散化会产生一个随观察维度指数增长的观察空间,而这在在线规划中就意味着每个信念节点都有着大量的观察分支,使得问题变得难以求解。POMCPOW和DESPOT-α采用了一种直观的方法来解决这一问题。POMCPOW引入了双渐宽技术,即限制观察分支的数量,并随着节点访问次数的增加逐渐放宽限制。DESPOT-α则选择固定最大观察分支数为C,并且在兄弟信念节点上共享粒子。这两种方法都有着共同的缺陷,即它们会有更大的估计方差,因为它们可能会舍弃掉一些与其他分支显著不同的观察分支,解决这一问题的唯一方法就是以增加计算量为代价增大允许的观察数,而这又与我们的目的相矛盾。本专利技术涉及一些背景知识包括:POMDP、有效样本数、粒子滤波、在线规划、信念填充。以下将对这些知识进行简要介绍。POMDP:一个POMDP问题可以被定义为一个七元组其中,分别是状态、动作和观察空间,T、Z、R分别是转移、观察和奖励函数,γ∈[0,1]是折扣因子。转移与奖励函数与其在MDP问题中相同,观察函数Z(o|s′,a)=Pr(o|s′,a)决定了在通过动作a到达状态s′后获得观察o的概率。在有些时候,转移函数T和观察函数Z可能很难显示定义,一种替代的方法是,生成式模型G,一个生成式模型会在给定状态s和动作a后,随机生成一个可能的s′,o,r的组合,因而隐式地定义了一个转移和观察函数。有效样本数:有效样本数是指,当从真实分布采样时,为了达到同在提议分布中采样N个粒子具有相同的采样误差,所需要的采样数。其准确的定义如下,I是一个待估计的量,是I的蒙特卡洛估计量,是I的重要性采样估计量,则,对于N个从提议分布q(·)中进行采样的样本,它的有效样本数ESS是:这里,是从真实分布中采样N个样本的蒙特卡洛估计量所具有的方差,而是从提议分布中采样N个样本的重要性采样估计量所具有的方差。可以看到,ESS的计算是与待估计的量I、真实分布p以及提议分布q相关的。而POMDP规划中,我们一般没有足够的信息来估计ESS,不过,对于这种情况,有一种通用的有效样本数近似方法,即在本专利技术中,我们将用这种近似的有效样本数代指有效样本数。粒子滤波:粒子滤波是一种用来解决滤波问题的技术,它能够从一组不完全并且含有噪声的观察之中估计隐状态。在粒子滤波中,真正的后验分布备用一组粒子(或样本)来近似,这组粒子每个都会被赋予一个通过重要性采样来计算得到的似然权重。粒子会通过系统的动力学模型进行传播,并根据得到的观察进行重新赋权。这种模式被成为序贯重要性采样,它有一个缺陷,也就是在数轮的粒子传播之后,各个粒子权重之间的不等性,最终将会导致权重退化,也就是说,大多数的权重会集中到少量的一些粒子上,而其他所有的粒子的权重都小到可以忽略。在这种情况下,我们更希望把有限的计算资源集中在那些有着大概率的区域上去,因而没有必要去继续把那些低权重的粒子继续向前传播。因此在标准的粒子滤波中,也就是序贯重要性重采样(SequentialImportanceResampling)粒子滤波中,引入了重采样技术,也就是对粒子集中的粒子进行重新采样,每个粒子被采到的概率与其权重成正比。经过重采样后,高权重的粒子会被采到多次,低权重的粒子则在这一过程中被舍弃了,而这又会带来一个新的问题,即样本贫化,也即是说样本的多样性在这一过程中减少了,最终可能会导致整个粒子集中只包含少数几种不同的粒子。权重退化和样本贫化是粒子滤波技术长久以来一直存在问题,在实践中,只有在必要的时候才会进行重采样,一个有效的经验规则是,当有效样本数低于全部样本数的一半时进行重采样。在线规划:在线规划方法可以被分为两类,离线和在线。离线方法计算了一个针对所有动作观察历史的指数级增长的解,而在线方法只对当前的信念状态进行规划。在线方法的这一特性显著地降低了计算量,因而能够拓展到离线方法不可解的很大规模的问题上。在线方法一般分为两个主要流程,一个是规划,一个是执行,二者交替进行。在在线方法的规划阶段,需要构建一颗信念树,并在信念树上进行策略的搜索,一颗信念树本文档来自技高网...

【技术保护点】
1.一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,其特征在于,包括以下步骤:/nS1、对自动驾驶任务进行建模,将自动驾驶任务建模为一个POMDP问题,包括对道路信息的建模以及对障碍物和智能体的建模;/nS2、在执行自动驾驶任务时,首先需要对自车进行定位,获取道路信息,然后使用物体识别和追踪算法对传感器视野中的各个障碍物及智能体进行识别,按照S1所述模型对各个障碍物及智能体的状态以信念分布进行表示,获得对应当前行车场景的POMDP模型;/nS3、使用一种POMDP在线规划方法求解当前信念状态下的最优动作;执行该最优动作,按照在线规划所得到的动作进行更进一步的路径规划,并最终转化为线控系统的操作;执行动作后使用动作对信念状态进行更新;/nS4、从传感器获取新的观察,并使用观察对信念状态进行更新,对于某些进入或离开模型所考虑的范围的障碍物或智能体,需要对模型中相应的部分进行更新;S4与S3交替进行,或者S4与S3并行执行;/nS5、自动驾驶任务结束则结束上述过程。/n

【技术特征摘要】
1.一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,其特征在于,包括以下步骤:
S1、对自动驾驶任务进行建模,将自动驾驶任务建模为一个POMDP问题,包括对道路信息的建模以及对障碍物和智能体的建模;
S2、在执行自动驾驶任务时,首先需要对自车进行定位,获取道路信息,然后使用物体识别和追踪算法对传感器视野中的各个障碍物及智能体进行识别,按照S1所述模型对各个障碍物及智能体的状态以信念分布进行表示,获得对应当前行车场景的POMDP模型;
S3、使用一种POMDP在线规划方法求解当前信念状态下的最优动作;执行该最优动作,按照在线规划所得到的动作进行更进一步的路径规划,并最终转化为线控系统的操作;执行动作后使用动作对信念状态进行更新;
S4、从传感器获取新的观察,并使用观察对信念状态进行更新,对于某些进入或离开模型所考虑的范围的障碍物或智能体,需要对模型中相应的部分进行更新;S4与S3交替进行,或者S4与S3并行执行;
S5、自动驾驶任务结束则结束上述过程。


2.根据权利要求1所述的基于自适应粒子与信念填充的部分可观察驾驶规划方法,其特征在于,所述S1中,建模过程包含状态空间、观察空间、动作空间的确定,转移模型和观察模型的构建,以及奖励函数的设计;这一过程需要离线构建,对于道路信息的建模需要预先收集道路数据,并根据所在位置调取相应道路信息;对于障碍物的模型构建即对道路上所有会导致碰撞的非智能体建立相应模型;对于智能体的建模需要对自动驾驶中会遇到的不同类型智能体分别进行建模。


3.根据权利要求1所述的基于自适应粒子与信念填充的部分可观察驾驶规划方法,其特征在于,S3所述的POMDP在线规划方法,包括以下步骤:
①在在线规划开始时,以当前信念状态为根节点建立信念树;所述信念树上的节点分为信念节点和动作节点,动作节点与信念节点相互交替;
②迭代构建信念树,每次从根节点出发选择根据预设标准依次选择动作和观察节点直至到达叶节点,对叶节点进行拓展,拓展时粒子的传播采用自适应粒子滤波,并为兄弟信念节点构建信念填充;待满足设定条件后,进行反传,将价值估计或价值上下界沿信念树上的路...

【专利技术属性】
技术研发人员:章宗长俞扬周志华吴晨阳杨国钰
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1