避障策略确定方法、装置及存储介质制造方法及图纸

技术编号:25823016 阅读:17 留言:0更新日期:2020-10-02 14:07
本申请涉及一种避障策略确定方法、装置及存储介质,属于计算机技术领域,该方法包括:将当前行驶车辆的当前环境信息输入估值网络,得到每种驾驶操作对应的Q值;估值网络使用第一训练数据训练得到,第一训练数据从安全数据容器和不安全数据容器中抽取得到;对各个驾驶操作按照Q值由大到小的顺序进行排序;对于排序在第i位的驾驶操作,确定第i位的驾驶操作是否为安全驾驶操作;在第i位的驾驶操作不是安全驾驶操作时,令i为i+1直至第i位的驾驶操作为安全驾驶操作时,确定第i位的驾驶操作为当前行驶车辆的避障策略;可以解决基于规则确定出的避障策略安全性不高的问题;提高确定出的避障策略的安全性。

【技术实现步骤摘要】
避障策略确定方法、装置及存储介质
本申请涉及一种避障策略确定方法、装置及存储介质,属于计算机

技术介绍
随着物联网技术的发展,自动驾驶车辆支持自动避障功能。比如:自动躲避其它车辆、自动躲避路障等。现有的避障策略包括:根据当前道路信息按照预设规则躲避障碍物。比如:当前时刻的道路环境为左侧行驶车辆较多,变道策略为向右变更车道。然而,在当前道路环境很复杂时,基于预设规则躲避障碍物的方法可能无法给出安全性更高的避障策略。
技术实现思路
本申请提供了一种避障策略确定方法、装置及存储介质,可以解决基于规则确定当前环境信息的避障策略时,得到的避障策略的安全性不高的问题。本申请提供如下技术方案:第一方面,提供了一种避障策略确定方法,所述方法包括:获取当前行驶车辆的当前环境信息;将所述当前环境信息输入预先训练的估值网络,得到每种驾驶操作对应的Q值;所述估值网络是使用第一训练数据训练得到的,所述第一训练数据从安全数据容器和不安全数据容器中抽取得到;所述安全数据容器包括多条安全数据,每条安全数据包括第一环境信息、安全驾驶操作、执行所述安全驾驶操作的奖励值和执行所述安全驾驶操作后的第二环境信息;所述不安全数据容器包括多条不安全数据,每条不安全数据包括第一环境信息、不安全驾驶操作和执行所述不安全驾驶操作的奖励值;对各个驾驶操作按照Q值由大到小的顺序进行排序;对于排序在第i位的驾驶操作,确定所述第i位的驾驶操作是否为安全驾驶操作;所述i依次取1至n的整数,所述n为所述驾驶操作的个数;在所述第i位的驾驶操作不是安全驾驶操作时,令i为i+1并再次执行所述对于排序在第i位的驾驶操作,确定所述第i位的驾驶操作是否为安全驾驶操作的步骤,直至所述第i位的驾驶操作为安全驾驶操作时,确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略。可选地,所述将所述当前环境信息输入预先训练的估值网络,得到每种驾驶操作对应的Q值之前,还包括:获取所述安全数据容器和所述不安全数据容器;从所述安全数据容器和所述不安全数据容器中抽取所述第一训练数据;使用所述第一训练数据对初始估值网络进行训练,得到所述估值网络。可选地,所述获取所述安全数据容器和所述不安全数据容器,包括:基于ε-greedy算法从多种驾驶操作中选择驾驶操作;将所述第一环境信息和选择的驾驶操作输入预先训练的驾驶奖励模型,得到所述选择的驾驶操作的奖励值;将所述选择的驾驶操作输入第一安全检测模型,得到所述第一安全检测模型输出的第一安全检测结果;所述第一安全检测模型用于检测在所述第一环境信息中执行所述选择的驾驶操作是否安全;将所述第一环境信息和所述选择的驾驶操作输入第二安全检测模型,得到所述第二安全检测模型输出的第二安全检测结果;所述第二安全检测模型用于检测在所述第一环境信息中执行所述选择的驾驶操作之后的k个时刻是否安全,所述k为正整数;在所述第一安全检测结果和所述第二安全检测结果均指示所述选择的驾驶操作安全时,将所述第一环境信息、所述选择的驾驶操作、所述选择的驾驶操作的奖励值、执行所述选择的驾驶操作后的第二环境信息确定为所述安全数据容器中的一条安全数据,所述选择的驾驶操作为所述安全数据中的安全驾驶操作;在所述第一安全检测结果和所述第二安全检测结果中的任意一个指示所述选择的驾驶操作不安全时,将所述第一环境信息、所述选择的驾驶操作和所述选择的驾驶操作的奖励值确定为所述不安全数据容器中的一条不安全数据,所述选择的驾驶操作为所述不安全数据中的不安全驾驶操作。可选地,所述将第一环境信息和所述选择的驾驶操作输入预先训练的驾驶奖励模型,得到所述选择的驾驶操作的奖励值之前,还包括:构建初始驾驶奖励模型,所述初始驾驶奖励模型包括驾驶动作参数、所述驾驶动作参数的第一权重向量、驾驶状态参数和所述驾驶状态参数的第二权重向量;基于逆强化学习方式对所述初始驾驶奖励模型进行学习,得到所述驾驶奖励模型,所述驾驶奖励模型包括驾驶动作参数、学习后的第一权重向量、驾驶状态参数和学习后的第二权重向量。可选地,所述将所述选择的驾驶操作输入第一安全检测模型,得到所述第一安全检测模型输出的第一安全检测结果,包括:计算执行所述选择的驾驶操作后训练车辆的第一位置信息和第一速度信息;获取所述第一环境信息中的障碍物的第二位置信息和第二速度信息;计算所述第一位置信息和所述第二位置信息之间的相对距离;计算所述第一速度信息和所述第二速度信息之间的相对速度;计算所述相对距离与所述相对速度之间的商,得到相对时长;在所述相对时长大于时长阈值时,输出用于指示所述选择的驾驶操作安全的第一安全检测结果;在所述相对时长小于或等于时长阈值时,输出用于指示所述选择的驾驶操作不安全的第一安全检测结果。可选地,所述第二安全检测模型是使用多条第二训练数据对初始神经网络模型进行训练得到的;每条第二训练数据包括第x时刻的环境信息、第x时刻执行的驾驶操作、以及第x时刻之后的k个时刻的环境信息;所述x为小于所述k的整数;所述将所述选择的驾驶操作输入第二安全检测模型,得到所述第二安全检测模型输出的第二安全检测结果,包括:将所述第一环境信息和所述选择的驾驶操作输入所述第二安全检测模型,得到执行所述选择的驾驶操作之后的k个时刻的环境信息;获取所述k个时刻的环境信息中每个时刻的环境信息对应的障碍物与训练车辆之间的距离;在所述k个时刻中至少一个时刻对应的障碍物与训练车辆之间的距离小于距离阈值时,输出用于指示所述选择的驾驶操作不安全的第二安全检测结果;在所述k个时刻中各个时刻对应的障碍物与训练车辆之间的距离均大于所述距离阈值时,输出用于指示所述选择的驾驶操作安全的第二安全检测结果。可选地,所述估值网络包括主网络和目标网络;所述第一训练数据包括第一环境信息、驾驶操作、所述驾驶操作的奖励值和空的第二环境信息;或者,所述第一训练数据包括第一环境信息、驾驶操作、所述驾驶操作的奖励值和执行所述驾驶操作后的第二环境信息;所述使用所述第一训练数据对初始估值网络进行训练,得到所述估值网络,包括:将所述第一训练数据输入所述主网络,以供所述主网络根据所述第一训练数据中的第一环境信息、驾驶操作、所述驾驶操作的奖励值和第二环境信息计算所述驾驶操作对应的Q估计值;将所述第一训练数据输入所述目标网络,以供所述目标网络根据所述第一训练数据中的第一环境信息、驾驶操作、所述驾驶操作的奖励值和第二环境信息计算所述驾驶操作对应的Q目标值;基于反向传播和梯度下降算法使用所述Q目标值与所述Q估计值之间的均方误差值对所述主网络进行参数迭代更新,得到所述估值网络。可选地,所述第i位的驾驶操作为安全驾驶操作时,确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略之后,还包括:获取执行所述第i位最高的驾驶操作之后的下一时刻环境信息;...

【技术保护点】
1.一种避障策略确定方法,其特征在于,所述方法包括:/n获取当前行驶车辆的当前环境信息;/n将所述当前环境信息输入预先训练的估值网络,得到每种驾驶操作对应的Q值;所述估值网络是使用第一训练数据训练得到的,所述第一训练数据从安全数据容器和不安全数据容器中抽取得到;所述安全数据容器包括多条安全数据,每条安全数据包括第一环境信息、安全驾驶操作、执行所述安全驾驶操作的奖励值和执行所述安全驾驶操作后的第二环境信息;所述不安全数据容器包括多条不安全数据,每条不安全数据包括第一环境信息、不安全驾驶操作和执行所述不安全驾驶操作的奖励值;/n对各个驾驶操作按照Q值由大到小的顺序进行排序;/n对于排序在第i位的驾驶操作,确定所述第i位的驾驶操作是否为安全驾驶操作;所述i依次取1至n的整数,所述n为所述驾驶操作的个数,所述n为大于1的整数;/n在所述第i位的驾驶操作不是安全驾驶操作时,令i为i+1并再次执行所述对于排序在第i位的驾驶操作,确定所述第i位的驾驶操作是否为安全驾驶操作的步骤,直至所述第i位的驾驶操作为安全驾驶操作时,确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略。/n

【技术特征摘要】
1.一种避障策略确定方法,其特征在于,所述方法包括:
获取当前行驶车辆的当前环境信息;
将所述当前环境信息输入预先训练的估值网络,得到每种驾驶操作对应的Q值;所述估值网络是使用第一训练数据训练得到的,所述第一训练数据从安全数据容器和不安全数据容器中抽取得到;所述安全数据容器包括多条安全数据,每条安全数据包括第一环境信息、安全驾驶操作、执行所述安全驾驶操作的奖励值和执行所述安全驾驶操作后的第二环境信息;所述不安全数据容器包括多条不安全数据,每条不安全数据包括第一环境信息、不安全驾驶操作和执行所述不安全驾驶操作的奖励值;
对各个驾驶操作按照Q值由大到小的顺序进行排序;
对于排序在第i位的驾驶操作,确定所述第i位的驾驶操作是否为安全驾驶操作;所述i依次取1至n的整数,所述n为所述驾驶操作的个数,所述n为大于1的整数;
在所述第i位的驾驶操作不是安全驾驶操作时,令i为i+1并再次执行所述对于排序在第i位的驾驶操作,确定所述第i位的驾驶操作是否为安全驾驶操作的步骤,直至所述第i位的驾驶操作为安全驾驶操作时,确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略。


2.根据权利要求1所述的方法,其特征在于,所述将所述当前环境信息输入预先训练的估值网络,得到每种驾驶操作对应的Q值之前,还包括:
获取所述安全数据容器和所述不安全数据容器;
从所述安全数据容器和所述不安全数据容器中抽取所述第一训练数据;
使用所述第一训练数据对初始估值网络进行训练,得到所述估值网络。


3.根据权利要求2所述的方法,其特征在于,所述获取所述安全数据容器和所述不安全数据容器,包括:
基于ε-greedy算法从多种驾驶操作中选择驾驶操作;
将所述第一环境信息和选择的驾驶操作输入预先训练的驾驶奖励模型,得到所述选择的驾驶操作的奖励值;
将所述选择的驾驶操作输入第一安全检测模型,得到所述第一安全检测模型输出的第一安全检测结果;所述第一安全检测模型用于检测在所述第一环境信息中执行所述选择的驾驶操作是否安全;
将所述第一环境信息和所述选择的驾驶操作输入第二安全检测模型,得到所述第二安全检测模型输出的第二安全检测结果;所述第二安全检测模型用于检测在所述第一环境信息中执行所述选择的驾驶操作之后的k个时刻是否安全,所述k为正整数;
在所述第一安全检测结果和所述第二安全检测结果均指示所述选择的驾驶操作安全时,将所述第一环境信息、所述选择的驾驶操作、所述选择的驾驶操作的奖励值、执行所述选择的驾驶操作后的第二环境信息确定为所述安全数据容器中的一条安全数据,所述选择的驾驶操作为所述安全数据中的安全驾驶操作;
在所述第一安全检测结果和所述第二安全检测结果中的任意一个指示所述选择的驾驶操作不安全时,将所述第一环境信息、所述选择的驾驶操作和所述选择的驾驶操作的奖励值确定为所述不安全数据容器中的一条不安全数据,所述选择的驾驶操作为所述不安全数据中的不安全驾驶操作。


4.根据权利要求3所述的方法,其特征在于,所述将第一环境信息和所述选择的驾驶操作输入预先训练的驾驶奖励模型,得到所述选择的驾驶操作的奖励值之前,还包括:
构建初始驾驶奖励模型,所述初始驾驶奖励模型包括驾驶动作参数、所述驾驶动作参数的第一权重向量、驾驶状态参数和所述驾驶状态参数的第二权重向量;
基于逆强化学习方式对所述初始驾驶奖励模型进行学习,得到所述驾驶奖励模型,所述驾驶奖励模型包括驾驶动作参数、学习后的第一权重向量、驾驶状态参数和学习后的第二权重向量。


5.根据权利要求3所述的方法,其特征在于,所述将所述选择的驾驶操作输入第一安全检测模型,得到所述第一安全检测模...

【专利技术属性】
技术研发人员:乔晓利
申请(专利权)人:知行汽车科技苏州有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1