避障策略确定方法、装置及存储介质制造方法及图纸

技术编号：25823016 阅读：17 留言：0更新日期：2020-10-02 14:07

本申请涉及一种避障策略确定方法、装置及存储介质，属于计算机技术领域，该方法包括：将当前行驶车辆的当前环境信息输入估值网络，得到每种驾驶操作对应的Q值；估值网络使用第一训练数据训练得到，第一训练数据从安全数据容器和不安全数据容器中抽取得到；对各个驾驶操作按照Q值由大到小的顺序进行排序；对于排序在第i位的驾驶操作，确定第i位的驾驶操作是否为安全驾驶操作；在第i位的驾驶操作不是安全驾驶操作时，令i为i+1直至第i位的驾驶操作为安全驾驶操作时，确定第i位的驾驶操作为当前行驶车辆的避障策略；可以解决基于规则确定出的避障策略安全性不高的问题；提高确定出的避障策略的安全性。

全部详细技术资料下载

【技术实现步骤摘要】
避障策略确定方法、装置及存储介质
本申请涉及一种避障策略确定方法、装置及存储介质，属于计算机

技术介绍
随着物联网技术的发展，自动驾驶车辆支持自动避障功能。比如：自动躲避其它车辆、自动躲避路障等。现有的避障策略包括：根据当前道路信息按照预设规则躲避障碍物。比如：当前时刻的道路环境为左侧行驶车辆较多，变道策略为向右变更车道。然而，在当前道路环境很复杂时，基于预设规则躲避障碍物的方法可能无法给出安全性更高的避障策略。
技术实现思路
本申请提供了一种避障策略确定方法、装置及存储介质，可以解决基于规则确定当前环境信息的避障策略时，得到的避障策略的安全性不高的问题。本申请提供如下技术方案：第一方面，提供了一种避障策略确定方法，所述方法包括：获取当前行驶车辆的当前环境信息；将所述当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值；所述估值网络是使用第一训练数据训练得到的，所述第一训练数据从安全数据容器和不安全数据容器中抽取得到；所述安全数据容器包括多条安全数据，每条安全数据包括第一环境信息、安全驾驶操作、执行所述安全驾驶操作的奖励值和执行所述安全驾驶操作后的第二环境信息；所述不安全数据容器包括多条不安全数据，每条不安全数据包括第一环境信息、不安全驾驶操作和执行所述不安全驾驶操作的奖励值；对各个驾驶操作按照Q值由大到小的顺序进行排序；对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作；所述i依次取1至n的整数，所述

【技术保护点】
1.一种避障策略确定方法，其特征在于，所述方法包括：/n获取当前行驶车辆的当前环境信息；/n将所述当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值；所述估值网络是使用第一训练数据训练得到的，所述第一训练数据从安全数据容器和不安全数据容器中抽取得到；所述安全数据容器包括多条安全数据，每条安全数据包括第一环境信息、安全驾驶操作、执行所述安全驾驶操作的奖励值和执行所述安全驾驶操作后的第二环境信息；所述不安全数据容器包括多条不安全数据，每条不安全数据包括第一环境信息、不安全驾驶操作和执行所述不安全驾驶操作的奖励值；/n对各个驾驶操作按照Q值由大到小的顺序进行排序；/n对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作；所述i依次取1至n的整数，所述n为所述驾驶操作的个数，所述n为大于1的整数；/n在所述第i位的驾驶操作不是安全驾驶操作时，令i为i+1并再次执行所述对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作的步骤，直至所述第i位的驾驶操作为安全驾驶操作时，确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略。/n

【技术特征摘要】
1.一种避障策略确定方法，其特征在于，所述方法包括：
获取当前行驶车辆的当前环境信息；
将所述当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值；所述估值网络是使用第一训练数据训练得到的，所述第一训练数据从安全数据容器和不安全数据容器中抽取得到；所述安全数据容器包括多条安全数据，每条安全数据包括第一环境信息、安全驾驶操作、执行所述安全驾驶操作的奖励值和执行所述安全驾驶操作后的第二环境信息；所述不安全数据容器包括多条不安全数据，每条不安全数据包括第一环境信息、不安全驾驶操作和执行所述不安全驾驶操作的奖励值；
对各个驾驶操作按照Q值由大到小的顺序进行排序；
对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作；所述i依次取1至n的整数，所述n为所述驾驶操作的个数，所述n为大于1的整数；
在所述第i位的驾驶操作不是安全驾驶操作时，令i为i+1并再次执行所述对于排序在第i位的驾驶操作，确定所述第i位的驾驶操作是否为安全驾驶操作的步骤，直至所述第i位的驾驶操作为安全驾驶操作时，确定所述第i位的驾驶操作为所述当前行驶车辆的避障策略。

2.根据权利要求1所述的方法，其特征在于，所述将所述当前环境信息输入预先训练的估值网络，得到每种驾驶操作对应的Q值之前，还包括：
获取所述安全数据容器和所述不安全数据容器；
从所述安全数据容器和所述不安全数据容器中抽取所述第一训练数据；
使用所述第一训练数据对初始估值网络进行训练，得到所述估值网络。

3.根据权利要求2所述的方法，其特征在于，所述获取所述安全数据容器和所述不安全数据容器，包括：
基于ε-greedy算法从多种驾驶操作中选择驾驶操作；
将所述第一环境信息和选择的驾驶操作输入预先训练的驾驶奖励模型，得到所述选择的驾驶操作的奖励值；
将所述选择的驾驶操作输入第一安全检测模型，得到所述第一安全检测模型输出的第一安全检测结果；所述第一安全检测模型用于检测在所述第一环境信息中执行所述选择的驾驶操作是否安全；
将所述第一环境信息和所述选择的驾驶操作输入第二安全检测模型，得到所述第二安全检测模型输出的第二安全检测结果；所述第二安全检测模型用于检测在所述第一环境信息中执行所述选择的驾驶操作之后的k个时刻是否安全，所述k为正整数；
在所述第一安全检测结果和所述第二安全检测结果均指示所述选择的驾驶操作安全时，将所述第一环境信息、所述选择的驾驶操作、所述选择的驾驶操作的奖励值、执行所述选择的驾驶操作后的第二环境信息确定为所述安全数据容器中的一条安全数据，所述选择的驾驶操作为所述安全数据中的安全驾驶操作；
在所述第一安全检测结果和所述第二安全检测结果中的任意一个指示所述选择的驾驶操作不安全时，将所述第一环境信息、所述选择的驾驶操作和所述选择的驾驶操作的奖励值确定为所述不安全数据容器中的一条不安全数据，所述选择的驾驶操作为所述不安全数据中的不安全驾驶操作。

4.根据权利要求3所述的方法，其特征在于，所述将第一环境信息和所述选择的驾驶操作输入预先训练的驾驶奖励模型，得到所述选择的驾驶操作的奖励值之前，还包括：
构建初始驾驶奖励模型，所述初始驾驶奖励模型包括驾驶动作参数、所述驾驶动作参数的第一权重向量、驾驶状态参数和所述驾驶状态参数的第二权重向量；
基于逆强化学习方式对所述初始驾驶奖励模型进行学习，得到所述驾驶奖励模型，所述驾驶奖励模型包括驾驶动作参数、学习后的第一权重向量、驾驶状态参数和学习后的第二权重向量。

5.根据权利要求3所述的方法，其特征在于，所述将所述选择的驾驶操作输入第一安全检测模型，得到所述第一安全检测模...

【专利技术属性】
技术研发人员：乔晓利，
申请(专利权)人：知行汽车科技苏州有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人