一种路径规划方法及装置和移动设备制造方法及图纸

技术编号:20479421 阅读:14 留言:0更新日期:2019-03-02 16:55
本申请提供一种路径规划方法及装置、移动设备和计算机可读存储介质。其中,路径规划方法包括:按照初始采样策略对当前环境进行采样,得到多个状态样本点;基于第一路径规划算法获取每个状态样本点对应的第一价值;基于第二路径规划算法获取每个状态样本点对应的第二价值;对第一价值和第二价值进行加权求和,得到每个状态样本点对应的价值;基于当前每个状态样本点对应的价值确定行驶路径规划。本实施例,实现了综合两种路径规划算法确定当前行驶路径,既可以适应复杂的驾驶环境,减少与人类司机的操控行为的差距,又可以减少需要记录的操作数据量,使得所确定的当前行驶路径更合理。

【技术实现步骤摘要】
一种路径规划方法及装置和移动设备
本申请涉及路径规划技术,尤其涉及一种路径规划方法及装置、移动设备和计算机可读存储介质。
技术介绍
随着计算机技术和人工智能的发展,无人车成为机器人领域的一个重要研究方向和研究热点。无人车的路径规划与控制策略是指无人车在各种状态下选择其自身动作的策略。无人车的动作包括加速、减速、转向、鸣笛、开关灯光等。对于无人车的路径规划与控制策略,目前主要有两大类方法,一类是基于启发式规则的方法,另一类是基于专家示范的方法。基于启发式规则的方法,就是通过人为制定的规则来规范无人车的路径规划和控制,这些规则是工程师在常识和直觉上认为正确的规则。例如,一条规则可以使让无人车尽量位于车道中心位置,另一条规则可以是让无人车尽量远离障碍物。基于专家示范的方法,就是记录下大量人类司机在开车的过程中进行的路径规划与控制数据,然后让计算机从这些数据中学习、模仿人类做出的规划与控制操作,最终让计算机学会对无人车进行路径规划与控制。但是,基于启发式规则的方法,有时很难适应复杂的驾驶环境,且通过规则得到的路径规划与控制策略与人类司机的操控行为差距较大。而基于专家示范的方法需要记录大量的操作数据,需要消耗大量资金、时间等资源。
技术实现思路
有鉴于此,本申请提供一种路径规划方法及装置、移动设备和计算机可读存储介质。具体地,本申请是通过如下技术方案实现的:根据本公开实施例的第一方面,提供一种路径规划方法,所述方法包括:按照初始采样策略对当前环境进行采样,得到多个状态样本点;基于第一路径规划算法获取每个状态样本点对应的第一价值;基于第二路径规划算法获取所述每个状态样本点对应的第二价值;对所述第一价值和所述第二价值进行加权求和,得到所述每个状态样本点对应的价值;基于当前每个状态样本点对应的价值确定当前行驶路径规划。在一实施例中,所述基于当前每个状态样本点对应的价值确定行驶路径规划,包括:若当前采样策略不满足收敛条件,则更新采样策略,按照更新后的采样策略进行采样,并继续执行所述基于第一路径规划算法获取每个状态样本点对应的第一价值和所述基于第二路径规划算法获取所述每个状态样本点对应的第二价值的操作,直至当前采样策略收敛;若当前采样策略满足收敛条件,则根据当前每个状态样本点对应的价值确定当前环境下的最大价值路径,并将所述最大价值路径作为当前行驶路径。在一实施例中,所述收敛条件是指所述当前采样策略对应的采样密度与状态样本点对应的估值成正比。在一实施例中,所述更新采样策略,包括:根据高斯混合模型更新当前每个状态样本点对应的采样密度。在一实施例中,在所述基于第一路径规划算法获取每个状态样本点对应的第一价值之前,所述方法还包括:通过逆向强化学习算法训练出与所述第一路径规划算法对应的状态价值函数。在一实施例中,所述通过逆向强化学习算法训练出与所述第一路径规划算法对应的状态价值函数,包括:根据所述第一路径规划算法对应的第一路径规划数据和基于所述第二路径规划算法确定的第二路径规划数据,通过逆向强化学习算法训练出与所述第一路径规划算法对应的状态价值函数。在一实施例中,在所述根据当前每个状态样本点对应的价值确定当前环境下的最大价值路径之后,所述方法还包括:将所述当前环境下的最大价值路径添加到所述第一路径规划数据中,以用于更新所述状态价值函数。根据本公开实施例的第二方面,提供一种路径规划装置,所述装置包括:采样模块,用于按照初始采样策略对当前环境进行采样,得到多个状态样本点;第一获取模块,用于基于第一路径规划算法获取所述采样模块得到的每个状态样本点对应的第一价值;第二获取模块,用于基于第二路径规划算法获取所述采样模块得到的所述每个状态样本点对应的第二价值;加权求和模块,用于对所述获取模块获取的所述第一价值和所述第二价值进行加权求和,得到所述每个状态样本点对应的价值;确定模块,用于基于所述加权求和模块得到的当前每个状态样本点对应的价值确定行驶路径规划。在一实施例中,确定模块包括:处理子模块用于若当前采样策略不满足收敛条件,则更新采样策略,按照更新后的采样策略进行采样,并继续执行所述基于第一路径规划算法获取每个状态样本点对应的第一价值和所述基于第二路径规划算法获取所述每个状态样本点对应的第二价值的操作,直至当前采样策略收敛;确定子模块,用于若当前采样策略满足收敛条件,则根据当前每个状态样本点对应的价值确定当前环境下的最大价值路径,并将所述最大价值路径作为当前行驶路径。根据本公开实施例的第三方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述路径规划方法。根据本公开实施例的第四方面,提供一种移动设备,包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述路径规划方法。本申请实施例,通过按照初始采样策略对当前环境进行采样,得到多个状态样本点,分别通过第一路径规划算法和第二路径规划算法获取每个状态样本点对应的第一价值和第二价值,并对第一价值和第二价值进行加权求和,得到每个状态样本点对应的价值,然后根据当前每个状态样本点对应的价值确定行驶路径规划,从而实现了综合两种路径规划算法确定当前行驶路径,既可以适应复杂的驾驶环境,减少与人类司机的操控行为的差距,又可以减少需要记录的操作数据量,使得所确定的当前行驶路径更合理。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是本申请一示例性实施例示出的一种路径规划方法的流程图;图2是本申请一示例性实施例示出的另一种路径规划方法的流程图;图3是本申请一示例性实施例示出的另一种路径规划方法的流程图;图4是本申请一示例性实施例示出的另一种路径规划方法的流程图;图5是本申请路径规划装置所在移动设备的一种硬件结构图;图6是本申请一示例性实施例示出的一种路径规划装置的框图;图7是本申请一示例性实施例示出的另一种路径规划装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。图1是本申请一示例性实施例示出的本文档来自技高网...

【技术保护点】
1.一种路径规划方法,其特征在于,所述方法包括:按照初始采样策略对当前环境进行采样,得到多个状态样本点;基于第一路径规划算法获取每个状态样本点对应的第一价值;基于第二路径规划算法获取所述每个状态样本点对应的第二价值;对所述第一价值和所述第二价值进行加权求和,得到所述每个状态样本点对应的价值;基于当前每个状态样本点对应的价值确定行驶路径规划。

【技术特征摘要】
1.一种路径规划方法,其特征在于,所述方法包括:按照初始采样策略对当前环境进行采样,得到多个状态样本点;基于第一路径规划算法获取每个状态样本点对应的第一价值;基于第二路径规划算法获取所述每个状态样本点对应的第二价值;对所述第一价值和所述第二价值进行加权求和,得到所述每个状态样本点对应的价值;基于当前每个状态样本点对应的价值确定行驶路径规划。2.根据权利要求1所述的方法,其特征在于,所述基于当前每个状态样本点对应的价值确定行驶路径规划,包括:若当前采样策略不满足收敛条件,则更新采样策略,按照更新后的采样策略进行采样,并继续执行所述基于第一路径规划算法获取每个状态样本点对应的第一价值和所述基于第二路径规划算法获取所述每个状态样本点对应的第二价值的操作,直至当前采样策略收敛;若当前采样策略满足收敛条件,则根据当前每个状态样本点对应的价值确定当前环境下的最大价值路径,并将所述最大价值路径作为当前行驶路径。3.根据权利要求2所述的方法,其特征在于,所述收敛条件是指所述当前采样策略对应的采样密度与状态样本点对应的估值成正比。4.根据权利要求2所述的方法,其特征在于,所述更新采样策略,包括:根据高斯混合模型更新当前每个状态样本点对应的采样密度。5.根据权利要求1或2所述的方法,其特征在于,在所述基于第一路径规划算法获取每个状态样本点对应的第一价值之前,所述方法还包括:通过逆向强化学习算法训练出与所述第一路径规划算法对应的状态价值函数。6.根据权利要求5所述的方法,其特征...

【专利技术属性】
技术研发人员:钱德恒任冬淳丁曙光付圣韩勤
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1