训练用于生成自动驾驶策略的控制策略模型的方法和装置制造方法及图纸

技术编号：23399098 阅读：39 留言：0更新日期：2020-02-22 11:29

本申请提供了一种训练用于生成自动驾驶策略的控制策略模型的方法和装置，首先利用低维训练数据确定隐特征空间和定义在该隐特征空间上的策略函数，随后以该隐特征空间为目标，监督将高维训练数据映射到该隐特征空间的编码器的训练，随后将该编码器和上述策略函数应用于真实交通环境，即，输入从真实交通环境中获取的高维数据，从而可以利用高维数据直接获得可用的自动驾驶策略。

Training method and device for generating control strategy model of automatic driving strategy

全部详细技术资料下载

【技术实现步骤摘要】
训练用于生成自动驾驶策略的控制策略模型的方法和装置
本申请涉及自动驾驶领域，尤其涉及一种训练用于生成自动驾驶策略的控制策略模型的方法和装置。
技术介绍
自动驾驶是一种由计算机系统代替人类来驾驶机动车辆的技术，其包括环境感知、位置定位、路径规划、决策控制和动力系统等功能模块。其中，实现环境感知功能的方式包括以下两种：通过激光雷达、毫米波雷达等高精度低维度传感器实现环境感知功能，以及，通过单目/多目高清摄影头等高维度低精度传感器实现环境感知功能。通常情况下，激光雷达等高精度低维度传感器价格昂贵且精度容易受到天气条件的影响而急剧下降，高清摄像头等低精度高维度传感器价格低廉且抗干扰能力更强，并且，高维数据(即，通过高维度传感器获得的数据)比低维数据(即，通过低维度传感器获得的数据)包含的信息更多，能够反映复杂的交通环境，因此，利用高维度数据确定自动驾驶策略具有较大的应用前景。然而，由于高维数据包含的信息量较大，通常情况下，高维数据还包含一些冗余信息，因此，通过人工神经网络处理高维数据难以直接获得可用的自动驾驶策略。
技术实现思路
本申请提供了一种训练用于生成自动驾驶策略的控制策略模型的方法和装置，首先利用低维训练数据确定隐特征空间和定义在该隐特征空间上的策略函数，随后以该隐特征空间为目标，监督将高维训练数据映射到该隐特征空间的编码器的训练，随后将该编码器和上述策略函数应用于真实交通环境，即，输入从真实交通环境中获取的高维数据，从而可以利用高维数据直接获得可用的自动驾驶策略。基于上述控制策略...

【技术保护点】
1.一种训练用于生成自动驾驶策略的控制策略模型的方法，其特征在于，包括：/n获取低维训练数据的隐特征空间，其中，所述低维训练数据为从第一交通场景中采集到的数据；/n通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，所述高维训练数据为从所述第一交通场景中采集到的数据，并且，所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集，所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。/n

【技术特征摘要】
1.一种训练用于生成自动驾驶策略的控制策略模型的方法，其特征在于，包括：
获取低维训练数据的隐特征空间，其中，所述低维训练数据为从第一交通场景中采集到的数据；
通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，所述高维训练数据为从所述第一交通场景中采集到的数据，并且，所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集，所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。

2.根据权利要求1所述的方法，其特征在于，所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，包括：
将所述高维训练数据作为输入量输入所述第二编码器得到所述高维训练数据的隐特征空间，所述低维训练数据的隐特征空间用于监督所述第二编码器的输出结果，使得所述高维训练数据的隐特征空间与所述低维训练数据的隐特征空间相同。

3.根据权利要求1或2所述的方法，其特征在于，所述获取低维训练数据的隐特征空间，包括：
将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间，所述第一编码器基于多个低维数据样本训练得到，所述多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与所述低维训练数据的类型相同的数据，所述第一编码器为所述控制策略模型的组成部分。

4.根据权利要求3所述的方法，其特征在于，在所述将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间之前，所述方法还包括：
根据所述多个低维数据样本和多个交通工具的状态参数训练所述控制策略模型，得到所述第一编码器和所述策略函数，所述多个低维数据样本与所述多个交通工具的状态参数一一对应。

5.根据权利要求3所述的方法，其特征在于，所述将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间之前，所述方法还包括：
根据和确定其中，所述f1′表示更新前的所述第一编码器，所述表示所述f1′中除自变量之外的参数，所述s(1)表示所述隐特征空间，所述表示与所述相关的梯度s(1)，所述表示与所述s(1)相关的梯度LRL，所述LRL表示与所述强化学习模型相关的损失函数，所述表示更新后的所述所述与所述正相关，且，所述与所述负相关；
根据所述更新所述f1′得到所述f1，所述f1表示更新后的所述第一编码器。

6.根据权利要求5所述的方法，其特征在于，所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，包括：
根据和确定其中，所述f2′表示更新前的所述第二编码器，所述表示所述f2′中除自变量之外的参数，所述表示与所述相关的梯度l，所述l表示和的方差，所述表示更新后的所述所述与所述正相关，且，所述与所述负相关，其中，所述x(2)表示所述高维训练数据，所述表示所述的范数；
根据所述更新所述f2′得到所述f2，所述f2表示更新后的所述第二编码器。

7.根据权利要求6所述的方法，其特征在于，根据所述和确定之前，所述方法还包括：
对齐所述x(1)和所述x(2)的时间戳。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：
获取高维真实数据，所述高维真实数据为交通工具从第二交通场景中采集到的数据，所述高维真实数据的类型与所述高维训练数据的类型相同；
将所述交通工具的状态参数和所述高维真实数据输入所述控制策略模型，生成适用于所述第二交通场景的自动驾驶策略，所述自动驾驶策略用于控制所述交通工具在所述第二交通场景下行驶。

9.根据权利要求8所述的方法，其特征在于，所述控制策略模型还包括策略函数；
其中，所述将交通工具的状态参数和所述高维真实数据输入所述控制策略模型，生成适用于所述第二交通场景的自动驾驶策略，包括：
将所述高维真实数据输入所述第二编码器，得到所述高维真实数据的隐特征空间；
根据所述高维真实数据的隐特征空间、所述交通工具的状态参数以及所述策略函数，得到所述自动驾驶策略。

10.一种生成自动驾驶策略的方法，其特征在于，所述方法包括：
将高维真实数据输入第二编码器得到所述高维真实数据的隐特征空间，所述高维真实数据为交通工具从当前交通场景中采集到的数据；
根据所述高维真实数据的隐特征空间、所述交通工具的状态参数以及策略函数生成自动驾驶策略，所述自动驾驶策略用于控制所述交通工具在所述当前交通场景下行驶；
其中，所述第二编码器通过以下方法训练得到：
将低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间，所述低维训练数据为从第一交通场景中采集到的数据；
通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，所述高维训练数据为从所述第一交通场景中采集到的数据，并且，所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集。

11.根据权利要求10所述的方法，其特征在于，所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器，包括：
将所述高维训练数据作为输入量输入所述第二编码器得到所述高维训练数据的隐特征空间，所述低维训练数据的隐特征空间用于监督第二编码器的输出结果，使得所述高维训练数据的隐特征空间与所述低维训练数据的隐特征空间相同。

12.根据权利要求10或11所述的方法，其特征在于，所述第一编码器和所述策略函数通过以下方法训练得到：
根据多个低维数据样本和多个交通工具的状态参数训练控制策略模型，得到所述第一编码器和所述策略函数，所述控制策略模型包括所述第一编码器和所述策略函数，所述多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与所述低维训练数据的类型相同的数据，所...

【专利技术属性】
技术研发人员：闫洁，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人