当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于深度强化学习的多传感器在线标定方法及系统技术方案

技术编号:24611826 阅读:64 留言:0更新日期:2020-06-24 00:18
一种基于深度强化学习的多传感器标定方法及系统,该专利提供一种基于深度神经网络和强化学习的多模型目标状态预测方法,有效应对多模型融合的复杂的强非线性环境表达与目标状态长时间预测问题,有助于提高目标状态预测精度和预测时长,实现多模型融合的在线参数自修正。该专利提供的标定方法具有优势:1)自适应环境场景变化,自调节多模型目标状态预测参数;2)提高目标状态预测精度;3)提高目标状态预测时间长度;4)在线自学习多模型预测参数,提高动态场景下目标状态预测精度。

A multi-sensor online calibration method and system based on deep reinforcement learning

【技术实现步骤摘要】
一种基于深度强化学习的多传感器在线标定方法及系统
本专利技术涉及一种面向智能驾驶系统的多传感器标定方法及系统,特别是关于一种基于深度强化学习的自动驾驶系统多传感器在线标定方法及系统。
技术介绍
智能驾驶对交通安全,交通效率以及环保节能等有着积极的作用。世界各国政府和交通道路相关的运营商对智能车辆越来越感兴趣,希望智能车辆能够让道路交通更安全、更高效、更环保。智能车辆是通过自主感知环境、自主决策和智能控制,提高对交通环境的反应速度,在不同的场景包括危险场景下快速地进行相应操作。智能车辆环境感知模块通过车载传感器获取环境信息,通常每辆智能车辆上都安装不止一个传感器,这些同构或异构的传感器安装在车辆的不同位置上,但获取的原始数据都是基于自身传感器坐标系。因此,针对不同安装位置的车载传感器需要通过外参数标定将自身传感器坐标系下测量读数统一到同一坐标系下,该同一坐标系一般是车辆坐标系。完成智能车辆车载传感器外参数的标定是实现多传感器融合技术的基础,对环境感知技术水平有着重要影响。多传感器标定主要包括离线标定和在线标定,常用的标定方法有直接测量法、人工取点法、场景特征法等。目前,现有方法还存在一下问题:1)标定精度低,直接测量和人工去点往往存在各自误差包括人为操作带来的误差。2)费时耗力,直接测试和人工取点都需要人为干预,如果对大量的设备进行标定,则会带来大量的工作量,难以实现智能驾驶系统的量产化。3)需要在特定的场景下进行,场景特征法等需要为传感器的标定设计特定的场景,无法实现对传感器的在线标定。4)难以应对异构传感器间的联合标定,现有方法往往只针对某个传感器进行标定,无法进行多个传感器间的相互标定以及相互在线校正。近年来强化学习以及深度强化学习方法广泛应用于智能驾驶领域,能够有效应对复杂的强非线性问题,而多传感器标定问题就是一个强非线性的优化问题。将深度强化学习应用于多传感器的标定,有助于提高传感器标定精度,实现多传感器在线标定。但相关工作暂未有人开展。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于提供一种基于深度强化学习的多传感器在线标定方法,利用深度强化学习网络在线实时估计多传感器的联合外参标定结果,保证智能驾驶系统的自我标定以及自我修正。为实现上述目的,本专利技术提供了如下技术方案:一种基于深度强化学习的多传感器在线标定方法,包括如下步骤:步骤1,定义传感器标定环境状态以及获取环境数据,其中,将传感器标定环境状态定义为三个层级,分别为像素级、特征级以及目标级,环境数据的获取方法为直接通过传感器反馈信息进行获取;步骤2,以每个传感器作为深度强化学习的智能体,以标定矩阵为每个智能体的行为模型,构建深度强化中多传感器间联合标定模型;步骤3,定义多传感器标定奖励模型,该奖励模型主要是给出每个智能体在优化标定矩阵过程中给出标定矩阵变换的效益函数;步骤4,对步骤2中获得的标定模型采用离线初学习以及在线实时学习更新。作为本专利技术的进一步改进,所述步骤1中的像素级环境状态表示为Pi(i=0,1,2…N),Pi为环境中传感器探测的环境中某一点信息,N表示传感器探测的环境点个数,特征级环境状态表示为Fi(i=0,1,2…N),Fi为环境中传感器探测的环境中某局部特征信息,N表示根据传感器探测原始数据预处理得到的环境局部特征个数,目标级环境状态表示为Oi(i=0,1,2…N),Oi为环境中传感器探测的环境中某一点信息,N表示传感器探测的环境点个数。如对于车载毫米雷达而言,Oi表示环境中某个障碍物目标信息。作为本专利技术的进一步改进,所述步骤3中的效益函数定义如下:其中,Ro表示目标级环境状态下的效益函数,Rf表示特征级环境状态下的效益函数,Rp表示像素级环境状态下的效益函数。作为本专利技术的进一步改进,所述Ro定义如下:其中,i表示考虑的帧序号,T表示考虑的总帧数;j表示对应不同传感器中的目标,M表示目标考虑的目标总个数;Pij表示待标定传感器根据坐标转换前第i个帧中第j个目标的位置信息,Mc表示传感器选择的行为即联合标定的矩阵,Pj表示目标传感器中对应的第i个帧中第j个目标的位置信息;Lij表示待标定传感器根据坐标转换前第i个帧中第j个目标的形状信息,Lj表示目标传感器中对应的第i个帧中第j个目标的形状信息;Oij表示待标定传感器根据坐标转换前第i个帧中第j个目标的朝向信息,Oj表示目标传感器中对应的第i个帧中第j个目标的朝向估计值;Vij表示待标定传感器根据坐标转换前第i个帧中第j个目标的目标速度信息,Vj表示目标传感器中对应的第i个帧中第j个目标的速度估计值;λk≥0(k=0,1,2,3)表示预测误差权重,其中满足:λ0+λ1+λ2+λ3=1。作为本专利技术的进一步改进,所述Rf定义如下:其中,i表示考虑的帧序号,T表示考虑的总帧数;j表示对应不同传感器中的特征,M表示考虑的特征总个数;Flij表示待标定传感器根据坐标转换前第i个帧中第j个直线特征的信息,Mc表示传感器选择的行为即联合标定的矩阵,Flj表示目标传感器中对应的第i个帧中第j个直线特征的信息;Fpij表示待标定传感器根据坐标转换前第i个帧中第j个平面特征的信息,Fpj表示目标传感器中对应的第i个帧中第j个直线特征的信息;λk≥0(k=0,1)表示预测误差权重,其中满足:λ0+λ1=1。作为本专利技术的进一步改进,所述Rp定义如下:其中,i表示考虑的帧序号,T表示考虑的总帧数;j表示对应不同传感器中的目标,M表示目标考虑的环境点总个数;Pixelij表示待标定传感器根据坐标转换前第i个帧中第j个环境点的位置信息,Mc表示传感器选择的行为即联合标定的矩阵,Pixelj表示目标传感器中对应的第i个帧中第j个环境点的位置信息。作为本专利技术的进一步改进,所述步骤4中的离线初学习是根据采集的离线数据进行学习,采集的离线数据包括多传感器探测的环境信息。作为本专利技术的进一步改进,所述步骤4中的在线实时学习更新中,根据实时的传感器信息进行网络更新与在线优化,实时更新传感器标定矩阵。本专利技术另一方面提供了一种系统,包括自车控制板、激光雷达、中长距毫米波雷达、侧向毫米波雷达和摄像头,其中方法搭载在自车控制板内,所述激光雷达、中长距毫米波雷达、侧向毫米波雷达和摄像头均与自车控制板耦接。本专利技术的有益效果,1)不需要人为参与多传感器的标定,降低标定人力成本;2)无需特殊的标定场景,简化标定场景需求;3)实现多传感器在线自标定,提高传感器间的检测结果鲁棒性。附图说明图1多传感器标定的环境状态分层表达示意图;图2多传感器标定的智能体行为定义示意图;图3多传感器联合标定矩阵转移示意图;图4多传感器联合标定深度强化学习示意图;图5多传感器标定硬件示意图;图6基于深度强化学习的多传感器标定离线与在线学习模块示意图。具体实施方式下面将结合附图所给本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的多传感器在线标定方法,其特征在于:包括如下步骤:/n步骤1,定义传感器标定环境状态以及获取环境数据,其中,将传感器标定环境状态定义为三个层级,分别为像素级、特征级以及目标级,环境数据的获取方法为直接通过传感器反馈信息进行获取;/n步骤2,以每个传感器作为深度强化学习的智能体,以标定矩阵为每个智能体的行为模型,构建深度强化中多传感器间联合标定模型;/n步骤3,定义多传感器标定奖励模型,该奖励模型主要是给出每个智能体在优化标定矩阵过程中给出标定矩阵变换的效益函数;/n步骤4,对步骤2中获得的标定模型采用离线初学习以及在线实时学习更新。/n

【技术特征摘要】
1.一种基于深度强化学习的多传感器在线标定方法,其特征在于:包括如下步骤:
步骤1,定义传感器标定环境状态以及获取环境数据,其中,将传感器标定环境状态定义为三个层级,分别为像素级、特征级以及目标级,环境数据的获取方法为直接通过传感器反馈信息进行获取;
步骤2,以每个传感器作为深度强化学习的智能体,以标定矩阵为每个智能体的行为模型,构建深度强化中多传感器间联合标定模型;
步骤3,定义多传感器标定奖励模型,该奖励模型主要是给出每个智能体在优化标定矩阵过程中给出标定矩阵变换的效益函数;
步骤4,对步骤2中获得的标定模型采用离线初学习以及在线实时学习更新。


2.根据权利要求1所述的基于深度强化学习的多传感器在线标定方法,其特征在于:所述步骤1中的像素级环境状态表示为Pi(i=0,1,2…N),Pi为环境中传感器探测的环境中某一点信息,N表示传感器探测的环境点个数,特征级环境状态表示为Fi(i=0,1,2…N),Fi为环境中传感器探测的环境中某局部特征信息,N表示根据传感器探测原始数据预处理得到的环境局部特征个数,目标级环境状态表示为Oi(i=0,1,2…N),Oi为环境中传感器探测的环境中某一点信息,N表示传感器探测的环境点个数。如对于车载毫米雷达而言,Oi表示环境中某个障碍物目标信息。


3.根据权利要求2所述的基于深度强化学习的多传感器在线标定方法,其特征在于:所述步骤3中的效益函数定义如下:



其中,Ro表示目标级环境状态下的效益函数,Rf表示特征级环境状态下的效益函数,Rp表示像素级环境状态下的效益函数。


4.根据权利要求3所述的基于深度强化学习的多传感器在线标定方法,其特征在于:所述Ro定义如下:



其中,i表示考虑的帧序号,T表示考虑的总帧数;j表示对应不同传感器中的目标,M表示目标考虑的目标总个数;Pij表示待标定传感器根据坐标转换前第i个帧中第j个目标的位置信息,Mc表示传感器选择的行为即联合标定的矩阵,Pj表示目标传感器中对应的第i个帧中第j个目标的位置信息;Lij表示待标定传感器根据坐标转换前第i个帧中第j个目标的形状信息,Lj表示目标传感器中对应的第i个帧中第j个目标的形状信息;Oij表示待标定传感器根据坐标转换前第i个帧中第j个目标的朝向信...

【专利技术属性】
技术研发人员:谢国涛秦晓辉徐彪王晓伟边有钢胡满江杨泽宇胡展溢钟志华
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1