变道策略确定方法、装置及存储介质制造方法及图纸

技术编号:25587658 阅读:22 留言:0更新日期:2020-09-11 23:46
本申请涉及一种变道策略确定方法、装置及存储介质,属于计算机技术领域,该方法包括:获取当前时刻采集到的环境信息;基于MCTS算法以当前时刻的环境信息作为根节点生成多条模拟路径,每条模拟路径包括m层子节点和不同层的节点间的传输路径,每条传输路径用于指示相邻两层节点之间的变道策略;获取多条模拟路径中每个子节点的累计质量得分和访问次数;基于累计质量得分和访问次数计算每个子节点的UCB值;将UCB值最大的目标子节点与目标子节点的父节点之间的变道策略确定为该环境信息的变道策略;可以解决仅根据当前时刻的道路环境确定变道策略时,确定出的变道策略可能不够准确的问题;可以提高确定变道策略的准确性。

【技术实现步骤摘要】
变道策略确定方法、装置及存储介质
本申请涉及一种变道策略确定方法、装置及存储介质,属于计算机

技术介绍
变道策略是指自动驾驶车辆通过感知周边交通状况,结合车辆当前位置、路面情况、及导航规划选择最合适的车道行驶的策略,是自动驾驶车辆的行为策略之一。现有技术中,变道策略的确定方式包括:获取当前时刻的道路环境;根据道路环境与变道策略之间的对应关系确定当前时刻的道路环境对应的变道策略,比如:当前时刻的道路环境为左侧行驶车辆较多,变道策略为向右变更车道。然而,通过在道路车道数量或者道路连接形态发生变化的复杂场景下,仅根据当前时刻的道路环境确定变道策略,可能会导致一些非必要的变道,从而降低给出的变道策略的准确度。
技术实现思路
本申请提供了一种变道策略确定方法、装置及存储介质,可以解决仅根据当前时刻的道路环境确定变道策略时,确定出的变道策略可能不够准确的问题。本申请提供如下技术方案:第一方面,提供了一种变道策略确定方法,所述方法包括:获取当前时刻采集到的环境信息;基于蒙特卡罗树搜索MCTS算法以所述环境信息作为根节点生成多条模拟路径,每条模拟路径包括m层子节点和不同层的节点间的传输路径,每条传输路径用于指示相邻两层节点之间的变道策略;每个子节点用于指示从所述子节点的父节点对应的环境信息执行变道策略后得到的变道后的环境信息,所述m为正整数;获取所述多条模拟路径中每个子节点的累计质量得分和访问次数;基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值;将UCB值最大的目标子节点与所述目标子节点的父节点之间的变道策略确定为所述环境信息的变道策略。可选地,所述变道策略的数量为n种,所述n为大于1的整数,所述基于MCTS算法以所述环境信息作为根节点生成多条模拟路径,包括:对于第k层节点,确定与所述第k层节点相连的n个第k+1层子节点,不同的第k+1层子节点对应的变道策略不同;所述第k层节点包括所述根节点和所述m层子节点,1≤k<m;在所述第k+1层子节点存在未搜索的子节点时,选择未被搜索的第k+1层子节点;计算选择的第k+1层子节点的质量得分,并记录所述选择的第k+1层子节点的访问次数,并令k=k+1,再次执行所述对于第k层节点,确定与所述第k层节点相连的n个第k+1层子节点的步骤;在所述第k+1层子节点全部已搜索时,按照每个第k+1层子节点的UCB值从所述n个第k+1层子节点中选择一个第k+1层子节点;计算选择的第k+1层子节点的质量得分,并记录所述选择的第k+1层子节点的访问次数,并令k=k+1,再次执行所述对于第k层节点,确定与所述第k层节点相连的n个第k+1层子节点的步骤;对于从根节点至第m层子节点均被搜索过的路径,从第m层子节点开始,将每层子节点的质量得分反向传输至所有的父节点,得到所述路径上每个子节点的累计质量得分;基于每个子节点的累计质量得分和访问次数计算所述子节点的UCB值,得到模拟路径,直至路径模拟的迭代次数达到预设次数时停止。可选地,所述计算选择的第k+1层子节点的质量得分,包括:基于预先训练的神经网络模型计算所述选择的第k+1层子节点的质量得分,所述神经网络模型基于多组训练数据训练得到,每组训练数据包括:变道前的第一训练环境信息、样本变道策略、基于所述第一训练环境信息使用所述样本变道策略变道后得到的第二训练环境信息、以及所述训练数据的样本质量得分。可选地,所述在所述第k+1层子节点存在未搜索的子节点时,选择未被搜索的第k+1层子节点,包括:从未搜索的子节点中随机选择一个第k+1层子节点。可选地,所述基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值,包括:将每个子节点对应的累计质量得分和访问次数输入预设的参数计算模型,得对应子节点的UCB值。可选地,所述参数计算模型包括:其中,v'表示当前子节点,v表示所述子节点的父节点,Q(v’)表示所述子节点的累计质量得分,N(v’)表示所述子节点的访问次数,N(v)表示所述父节点的访问次数,c为常量参数。可选地,所述环境信息包括当前行驶车辆的道路信息。第二方面,提供了一种变道策略确定装置,所述装置包括:环境获取模块,用于获取当前时刻采集到的环境信息;路径模拟模块,用于基于蒙特卡罗树搜索MCTS算法以所述环境信息作为根节点生成多条模拟路径,每条模拟路径包括m层子节点和不同层的节点间的传输路径,每条传输路径用于指示相邻两层节点之间的变道策略;每个子节点用于指示从所述子节点的父节点对应的环境信息执行变道策略后得到的变道后的环境信息,所述m为正整数;数据获取模块,用于获取所述多条模拟路径中每个子节点的累计质量得分和访问次数;置信度计算模块,用于基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值;策略确定模块,用于将UCB值最大的目标子节点与所述目标子节点的父节点之间的变道策略确定为所述环境信息的变道策略。第三方面,提供一种变道策略确定装置,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的变道策略确定方法。第四方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的变道策略确定方法。本申请的有益效果在于:通过获取当前时刻采集到的环境信息;基于MCTS算法以该当前时刻的环境信息作为根节点生成多条模拟路径,每条模拟路径包括m层子节点和不同层的节点间的传输路径,每条传输路径用于指示相邻两层节点之间的变道策略;获取多条模拟路径中每个子节点的累计质量得分和访问次数;基于累计质量得分和访问次数计算每个子节点的UCB值;将UCB值最大的目标子节点与目标子节点的父节点之间的变道策略确定为该环境信息的变道策略;可以解决仅根据当前时刻的道路环境确定变道策略时,确定出的变道策略可能不够准确的问题;由于可以对多种变道策略进行模拟,选择置信度最高的变道策略,因此,可以提高确定变道策略的准确性。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。附图说明图1是本申请一个实施例提供的变道策略确定方法的流程图;图2是本申请一个实施例提供的变道策略确定装置的框图;图3是本申请一个实施例提供的变道策略确定装置的框图。具体实施方式下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。首先,对本申请涉及的若干名词进行介绍。蒙特卡罗树搜索(MonteCarloTreeSearch,MCTS)是一类树搜索算法的统称,可以解决一些探索空间巨大的问题,例如:围棋算法都是基于MCTS实现的。蒙特卡罗树本文档来自技高网...

【技术保护点】
1.一种变道策略确定方法,其特征在于,所述方法包括:/n获取当前时刻采集到的环境信息;/n基于蒙特卡罗树搜索MCTS算法以所述环境信息作为根节点生成多条模拟路径,每条模拟路径包括m层子节点和不同层的节点间的传输路径,每条传输路径用于指示相邻两层节点之间的变道策略;每个子节点用于指示从所述子节点的父节点对应的环境信息执行变道策略后得到的变道后的环境信息,所述m为正整数;/n获取所述多条模拟路径中每个子节点的累计质量得分和访问次数;/n基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值;/n将UCB值最大的目标子节点与所述目标子节点的父节点之间的变道策略确定为所述环境信息的变道策略。/n

【技术特征摘要】
1.一种变道策略确定方法,其特征在于,所述方法包括:
获取当前时刻采集到的环境信息;
基于蒙特卡罗树搜索MCTS算法以所述环境信息作为根节点生成多条模拟路径,每条模拟路径包括m层子节点和不同层的节点间的传输路径,每条传输路径用于指示相邻两层节点之间的变道策略;每个子节点用于指示从所述子节点的父节点对应的环境信息执行变道策略后得到的变道后的环境信息,所述m为正整数;
获取所述多条模拟路径中每个子节点的累计质量得分和访问次数;
基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值;
将UCB值最大的目标子节点与所述目标子节点的父节点之间的变道策略确定为所述环境信息的变道策略。


2.根据权利要求1所述的方法,其特征在于,所述变道策略的数量为n种,所述n为大于1的整数,所述基于MCTS算法以所述环境信息作为根节点生成多条模拟路径,包括:
对于第k层节点,确定与所述第k层节点相连的n个第k+1层子节点,不同的第k+1层子节点对应的变道策略不同;所述第k层节点包括所述根节点和所述m层子节点,1≤k<m;
在所述第k+1层子节点存在未搜索的子节点时,选择未被搜索的第k+1层子节点;计算选择的第k+1层子节点的质量得分,并记录所述选择的第k+1层子节点的访问次数,并令k=k+1,再次执行所述对于第k层节点,确定与所述第k层节点相连的n个第k+1层子节点的步骤;
在所述第k+1层子节点全部已搜索时,按照每个第k+1层子节点的UCB值从所述n个第k+1层子节点中选择一个第k+1层子节点;计算选择的第k+1层子节点的质量得分,并记录所述选择的第k+1层子节点的访问次数,并令k=k+1,再次执行所述对于第k层节点,确定与所述第k层节点相连的n个第k+1层子节点的步骤;
对于从根节点至第m层子节点均被搜索过的路径,从第m层子节点开始,将每层子节点的质量得分反向传输至所有的父节点,得到所述路径上每个子节点的累计质量得分;基于每个子节点的累计质量得分和访问次数计算所述子节点的UCB值,得到模拟路径,直至路径模拟的迭代次数达到预设次数时停止。


3.根据权利要求2所述的方法,其特征在于,所述计算选择的第k+1层子节点的质量得分,包括:
基于预先训练的神经网络模型计算所述选择的第k+1层子节点的质量得分,所述神经网络模型基于多组训练数据训练得到,每组训练数据包括:变道前的第...

【专利技术属性】
技术研发人员:乔晓利
申请(专利权)人:知行汽车科技苏州有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1