训练用于生成自动驾驶策略的控制策略模型的方法和装置制造方法及图纸

技术编号:23399098 阅读:39 留言:0更新日期:2020-02-22 11:29
本申请提供了一种训练用于生成自动驾驶策略的控制策略模型的方法和装置,首先利用低维训练数据确定隐特征空间和定义在该隐特征空间上的策略函数,随后以该隐特征空间为目标,监督将高维训练数据映射到该隐特征空间的编码器的训练,随后将该编码器和上述策略函数应用于真实交通环境,即,输入从真实交通环境中获取的高维数据,从而可以利用高维数据直接获得可用的自动驾驶策略。

Training method and device for generating control strategy model of automatic driving strategy

【技术实现步骤摘要】
训练用于生成自动驾驶策略的控制策略模型的方法和装置
本申请涉及自动驾驶领域,尤其涉及一种训练用于生成自动驾驶策略的控制策略模型的方法和装置。
技术介绍
自动驾驶是一种由计算机系统代替人类来驾驶机动车辆的技术,其包括环境感知、位置定位、路径规划、决策控制和动力系统等功能模块。其中,实现环境感知功能的方式包括以下两种:通过激光雷达、毫米波雷达等高精度低维度传感器实现环境感知功能,以及,通过单目/多目高清摄影头等高维度低精度传感器实现环境感知功能。通常情况下,激光雷达等高精度低维度传感器价格昂贵且精度容易受到天气条件的影响而急剧下降,高清摄像头等低精度高维度传感器价格低廉且抗干扰能力更强,并且,高维数据(即,通过高维度传感器获得的数据)比低维数据(即,通过低维度传感器获得的数据)包含的信息更多,能够反映复杂的交通环境,因此,利用高维度数据确定自动驾驶策略具有较大的应用前景。然而,由于高维数据包含的信息量较大,通常情况下,高维数据还包含一些冗余信息,因此,通过人工神经网络处理高维数据难以直接获得可用的自动驾驶策略。
技术实现思路
本申请提供了一种训练用于生成自动驾驶策略的控制策略模型的方法和装置,首先利用低维训练数据确定隐特征空间和定义在该隐特征空间上的策略函数,随后以该隐特征空间为目标,监督将高维训练数据映射到该隐特征空间的编码器的训练,随后将该编码器和上述策略函数应用于真实交通环境,即,输入从真实交通环境中获取的高维数据,从而可以利用高维数据直接获得可用的自动驾驶策略。基于上述控制策略模型,本申请还提供了一种生成自动驾驶策略的方法和装置,一种自动驾驶策略生成系统以及该自动驾驶策略生成系统的控制方法。第一方面,提供了一种训练用于生成自动驾驶策略的控制策略模型的方法,包括:获取低维训练数据的隐特征空间,其中,该低维训练数据为从第一交通场景中采集到的数据;通过高维训练数据和低维训练数据的隐特征空间训练第二编码器,该高维训练数据为从第一交通场景中采集到的数据,并且,低维训练数据包含的信息是高维训练数据包含的信息的子集,所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。由于低维训练数据包含的信息是高维训练数据包含的信息的子集,因此,通过低维训练数据获得的隐特征空间也一定能从高维训练数据中得到,基于上述原理,本申请首先获取低维训练数据的隐特征空间,由于低维训练数据包含的信息量较小,并且,低维训练数据包含的冗余信息较少,因此,基于低维训练数据的隐特征空间比较容易获得可用的策略函数。随后,利用低维数据的隐特征空间监督第二编码器的训练过程,最终获得一个能够将高维训练数据映射至该隐特征空间的第二编码器。第二编码器训练完成后,即可使用第二编码器和预先得到的策略函数直接处理真实环境中的高维数据(即,高维真实数据),得到可用的自动驾驶策略。可选地,所述通过高维训练数据和低维训练数据的隐特征空间训练第二编码器,包括:将所述高维训练数据作为输入量输入第二编码器得到高维训练数据的隐特征空间,所述低维训练数据的隐特征空间用于监督第二编码器的输出结果,使得高维训练数据的隐特征空间与低维训练数据的隐特征空间相同。监督学习方法是一种机器学习方法,机器利用低维训练数据的隐特征空间监督第二编码器的输出结果,最终可以获得将高维训练数据映射至低维训练数据的隐特征空间的第二编码器。可选地,所述获取低维训练数据的隐特征空间,包括:将低维训练数据输入第一编码器得到低维训练数据的隐特征空间,第一编码器基于多个低维数据样本训练得到,该多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与所述低维训练数据的类型相同的数据,所述第一编码器为控制策略模型的组成部分。低维训练数据的类型与低维数据样本的类型相同,这样,通过低维数据样本得到的第一编码器可以适用于低维训练数据,从而可以获得低维训练数据的隐特征空间。可选地,在将低维训练数据输入第一编码器得到低维训练数据的隐特征空间之前,所述方法还包括:根据所述多个低维数据样本和多个交通工具的状态参数训练控制策略模型,得到第一编码器和策略函数,所述多个低维数据样本与所述多个交通工具的状态参数一一对应。可选地,将低维训练数据输入第一编码器得到低维训练数据的隐特征空间之前,所述方法还包括:根据和确定其中,f1′表示更新前的第一编码器,表示f1′中除自变量之外的参数,s(1)表示隐特征空间,表示与相关的梯度s(1),表示与s(1)相关的梯度LRL,LRL表示与强化学习模型相关的损失函数,表示更新后的与正相关,且,与负相关;根据更新f1′得到f1,f1表示更新后的第一编码器。上述方案提供了采用梯度下降算法时第一编码器的训练方法,能够不断优化第一编码器,从而使得从低维训练数据中获得的隐特征空间能够更加准确地反映第一交通环境。可选地,通过高维训练数据和低维训练数据的隐特征空间训练第二编码器,包括:根据和确定其中,f2′表示更新前的第二编码器,表示f2′中除自变量之外的参数,表示与相关的梯度l,l表示和的方差,表示更新后的与正相关,且,与负相关,其中,x(2)表示高维训练数据,表示的范数;根据更新f2′得到f2,f2表示更新后的第二编码器。上述方案提供了采用梯度下降算法时第二编码器的训练方法,能够不断优化第二编码器,使得高维训练数据更加准确地映射到低维训练数据的隐特征空间。可选地,根据和确定之前,所述方法还包括:对齐x(1)和x(2)的时间戳。对齐低维训练数据和高维训练数据的时间戳能够将高维训练数据更加准确地映射到低维训练数据的隐特征空间。可选地,所述方法还包括:获取高维真实数据,该高维真实数据为交通工具从第二交通场景中采集到的数据,高维真实数据的类型与高维训练数据的类型相同;将交通工具的状态参数和高维真实数据输入控制策略模型,生成适用于第二交通场景的自动驾驶策略,所述自动驾驶策略用于控制交通工具在第二交通场景下行驶。例如,高维真实数据和高维训练数据均为图像数据,由于高维真实数据的类型与高维训练数据的类型相同,因此,通过高维训练数据得到的第二编码器同样适用于高维真实数据,将高维真实数据输入包含第二编码器的控制策略模型,即可得到适用于第二交通场景的自动驾驶策略。可选地,控制策略模型还包括策略函数;其中,将交通工具的状态参数和高维真实数据输入控制策略模型,生成适用于第二交通场景的自动驾驶策略,包括:将高维真实数据输入第二编码器,得到高维真实数据的隐特征空间;根据高维真实数据的隐特征空间、交通工具的状态参数以及策略函数,得到自动驾驶策略。第二方面,本申请提供了一种生成自动驾驶策略的方法,包括:将高维真实数据输入第二编码器得到高维真实数据的隐特征空间,高维真实数据为交通工具从当前的交通场景中采集到的数据;根据高维真实数据的隐特征空间、交通工具的状态参数以及策略函数生成自动驾驶策略,所述自动驾驶策略用于控制交通工具在当前的交通场景下行驶;其中,所述第二编码器通过以下方法训练得到:将低维训练数据输本文档来自技高网...

【技术保护点】
1.一种训练用于生成自动驾驶策略的控制策略模型的方法,其特征在于,包括:/n获取低维训练数据的隐特征空间,其中,所述低维训练数据为从第一交通场景中采集到的数据;/n通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器,所述高维训练数据为从所述第一交通场景中采集到的数据,并且,所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集,所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。/n

【技术特征摘要】
1.一种训练用于生成自动驾驶策略的控制策略模型的方法,其特征在于,包括:
获取低维训练数据的隐特征空间,其中,所述低维训练数据为从第一交通场景中采集到的数据;
通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器,所述高维训练数据为从所述第一交通场景中采集到的数据,并且,所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集,所述第二编码器为用于生成自动驾驶策略的控制策略模型的组成部分。


2.根据权利要求1所述的方法,其特征在于,所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器,包括:
将所述高维训练数据作为输入量输入所述第二编码器得到所述高维训练数据的隐特征空间,所述低维训练数据的隐特征空间用于监督所述第二编码器的输出结果,使得所述高维训练数据的隐特征空间与所述低维训练数据的隐特征空间相同。


3.根据权利要求1或2所述的方法,其特征在于,所述获取低维训练数据的隐特征空间,包括:
将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间,所述第一编码器基于多个低维数据样本训练得到,所述多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与所述低维训练数据的类型相同的数据,所述第一编码器为所述控制策略模型的组成部分。


4.根据权利要求3所述的方法,其特征在于,在所述将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间之前,所述方法还包括:
根据所述多个低维数据样本和多个交通工具的状态参数训练所述控制策略模型,得到所述第一编码器和所述策略函数,所述多个低维数据样本与所述多个交通工具的状态参数一一对应。


5.根据权利要求3所述的方法,其特征在于,所述将所述低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间之前,所述方法还包括:
根据和确定其中,所述f1′表示更新前的所述第一编码器,所述表示所述f1′中除自变量之外的参数,所述s(1)表示所述隐特征空间,所述表示与所述相关的梯度s(1),所述表示与所述s(1)相关的梯度LRL,所述LRL表示与所述强化学习模型相关的损失函数,所述表示更新后的所述所述与所述正相关,且,所述与所述负相关;
根据所述更新所述f1′得到所述f1,所述f1表示更新后的所述第一编码器。


6.根据权利要求5所述的方法,其特征在于,所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器,包括:
根据和确定其中,所述f2′表示更新前的所述第二编码器,所述表示所述f2′中除自变量之外的参数,所述表示与所述相关的梯度l,所述l表示和的方差,所述表示更新后的所述所述与所述正相关,且,所述与所述负相关,其中,所述x(2)表示所述高维训练数据,所述表示所述的范数;
根据所述更新所述f2′得到所述f2,所述f2表示更新后的所述第二编码器。


7.根据权利要求6所述的方法,其特征在于,根据所述和确定之前,所述方法还包括:
对齐所述x(1)和所述x(2)的时间戳。


8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
获取高维真实数据,所述高维真实数据为交通工具从第二交通场景中采集到的数据,所述高维真实数据的类型与所述高维训练数据的类型相同;
将所述交通工具的状态参数和所述高维真实数据输入所述控制策略模型,生成适用于所述第二交通场景的自动驾驶策略,所述自动驾驶策略用于控制所述交通工具在所述第二交通场景下行驶。


9.根据权利要求8所述的方法,其特征在于,所述控制策略模型还包括策略函数;
其中,所述将交通工具的状态参数和所述高维真实数据输入所述控制策略模型,生成适用于所述第二交通场景的自动驾驶策略,包括:
将所述高维真实数据输入所述第二编码器,得到所述高维真实数据的隐特征空间;
根据所述高维真实数据的隐特征空间、所述交通工具的状态参数以及所述策略函数,得到所述自动驾驶策略。


10.一种生成自动驾驶策略的方法,其特征在于,所述方法包括:
将高维真实数据输入第二编码器得到所述高维真实数据的隐特征空间,所述高维真实数据为交通工具从当前交通场景中采集到的数据;
根据所述高维真实数据的隐特征空间、所述交通工具的状态参数以及策略函数生成自动驾驶策略,所述自动驾驶策略用于控制所述交通工具在所述当前交通场景下行驶;
其中,所述第二编码器通过以下方法训练得到:
将低维训练数据输入第一编码器得到所述低维训练数据的隐特征空间,所述低维训练数据为从第一交通场景中采集到的数据;
通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器,所述高维训练数据为从所述第一交通场景中采集到的数据,并且,所述低维训练数据包含的信息是所述高维训练数据包含的信息的子集。


11.根据权利要求10所述的方法,其特征在于,所述通过高维训练数据和所述低维训练数据的隐特征空间训练第二编码器,包括:
将所述高维训练数据作为输入量输入所述第二编码器得到所述高维训练数据的隐特征空间,所述低维训练数据的隐特征空间用于监督第二编码器的输出结果,使得所述高维训练数据的隐特征空间与所述低维训练数据的隐特征空间相同。


12.根据权利要求10或11所述的方法,其特征在于,所述第一编码器和所述策略函数通过以下方法训练得到:
根据多个低维数据样本和多个交通工具的状态参数训练控制策略模型,得到所述第一编码器和所述策略函数,所述控制策略模型包括所述第一编码器和所述策略函数,所述多个低维数据样本中的每一个低维数据样本为从任一交通场景采集且与所述低维训练数据的类型相同的数据,所...

【专利技术属性】
技术研发人员:闫洁
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1