一种无人车控制模型的训练方法及装置制造方法及图纸

技术编号:23892451 阅读:32 留言:0更新日期:2020-04-22 07:02
本说明书公开了一种无人车控制模型的训练方法及装置,针对模型训练时的每个时刻,可确定由上一时刻用于计算奖励的各历史环境特征以及根据当前环境信息确定的当前环境特征构成的特征矩阵,之后,再基于当前环境特征以及各历史环境特征对特征矩阵的重要程度,从特征矩阵中选择当前时刻用于计算奖励的特征,然后根据当前环境特征以及选择出的特征确定奖励,以训练该无人车控制模型,并在训练结束后,根据训练完成的模型进行无人车控制。由于计算奖励的特征,是基于包含历史环境特征在内的各特征对的特征对整体的重要程度确定的,使得训练时可基于环境信息的变化确定更多的有效奖励,解决了奖励稀疏的问题,节省了成本以及时间。

【技术实现步骤摘要】
一种无人车控制模型的训练方法及装置
本申请涉及无人驾驶
,尤其涉及一种无人车控制模型的训练方法及装置。
技术介绍
目前,无人驾驶
中无人车控制方法主要需要解决的问题是无人车如何避障,通常无人车避障过程为:将无人车实时采集的环境信息、自身行驶状态等输入预先训练的模型,根据模型的输出控制无人车避障行驶。在现有技术中,通常利用强化学习的方法进行模型训练,通过不断地“试错”过程训练得到该模型。具体的,训练强化学习模型时,无人车根据上一时刻的行动对环境信息造成的影响确定奖励,将奖励以及当前时刻的环境信息输入强化学习模型,以根据模型的输出控制无人车。通过行驶过程中不断的输入输出,训练强化学习模型。使模型“学”到不同情况下应该对应什么样的输出。但是,现有训练强化学习模型过程,通常在无人车到达目的地时确定模型输出的是正确的控制,给与正面反馈,当行驶过程中出现危险状况时确定模型输出的是错误的控制,给与反面反馈,因此通常只有在达到目的地或者出现危险状况反馈的奖励才是有效奖励,即可以使模型参数收敛的奖励,而在行驶过程中大部分奖励都难以使模本文档来自技高网...

【技术保护点】
1.一种无人车控制模型的训练方法,其特征在于,包括:/n获取无人车在行驶过程中所处位置的当前环境信息,并根据所述当前环境信息确定当前环境特征;/n确定由上一时刻用于计算奖励的各历史环境特征以及所述当前环境特征构成的特征矩阵,所述各历史环境特征为根据所述无人车在所述行驶过程中获取的各历史环境信息确定出的特征;/n根据所述特征矩阵中各特征之间的相似度,确定所述当前环境特征以及所述各历史环境特征对所述特征矩阵的重要程度,并根据所述重要程度从所述特征矩阵中选择当前时刻用于计算奖励的特征;/n根据所述当前环境特征以及选择出的特征,通过预设的奖励函数确定奖励;/n将所述当前环境信息以及所述奖励输入待训练的...

【技术特征摘要】
1.一种无人车控制模型的训练方法,其特征在于,包括:
获取无人车在行驶过程中所处位置的当前环境信息,并根据所述当前环境信息确定当前环境特征;
确定由上一时刻用于计算奖励的各历史环境特征以及所述当前环境特征构成的特征矩阵,所述各历史环境特征为根据所述无人车在所述行驶过程中获取的各历史环境信息确定出的特征;
根据所述特征矩阵中各特征之间的相似度,确定所述当前环境特征以及所述各历史环境特征对所述特征矩阵的重要程度,并根据所述重要程度从所述特征矩阵中选择当前时刻用于计算奖励的特征;
根据所述当前环境特征以及选择出的特征,通过预设的奖励函数确定奖励;
将所述当前环境信息以及所述奖励输入待训练的无人车控制模型,进行模型训练,所述无人车控制模型用于无人车控制。


2.如权利要求1所述的方法,其特征在于,获取无人车在行驶过程中所处位置的当前环境信息,具体包括:
获取所述无人车周围的障碍物信息、所述无人车当前时刻的定位信息以及所述行驶过程对应的车道信息,作为所述当前环境信息;
其中,所述车道信息包括:当前车道位置以及后续车道位置,所述当前车道位置根据所述无人车当前时刻的定位信息确定,所述后续车道位置为根据所述定位信息以及所述行驶过程对应的路径规划,确定出的后续所述无人车可行驶的车道位置。


3.如权利要求2所述的方法,其特征在于,根据所述当前环境信息确定当前环境特征,具体包括:
将所述障碍物信息作为输入,输入预先训练的特征提取模型,得到输出的特征向量;
将所述特征向量、所述定位信息以及所述车道信息进行拼接,确定当前环境特征。


4.如权利要求1所述的方法,其特征在于,所述当前环境特征的形式为列向量;
根据所述特征矩阵中各特征之间的相似度,确定所述当前环境特征以及所述各历史环境特征对所述特征矩阵的重要程度,并根据所述重要程度从所述特征矩阵中选择当前时刻用于计算奖励的特征,具体包括:
根据所述特征矩阵中各特征之间的相似度,确定所述特征矩阵对应的相似度矩阵;
根据所述相似度矩阵,确定与所述当前环境特征相似度最小的历史环境特征,并将确定出的历史环境特征在所述相似度矩阵中对应的列,作为中间矩阵的初始列;
确定所述相似度矩阵与所述中间矩阵的残差矩阵;
根据所述残差矩阵以及所述相似度矩阵,确定所述相似度矩阵中各列对所述残差矩阵的重要程度,并根据重要程度从大到小的顺序,将所述相似度矩阵中第一数量的列添加至所述中间矩阵;
根据所述中间矩阵,确定当前时刻所述特征矩阵中用于计算奖励的特征。


5.如权利要求4所述的方法,其特征在于,根据重要程度从大到小的顺序,将所述相似度矩阵中第一数量的列添加至所述中间矩阵,具体包括:
根据重要程度从大到小的顺序,从所述相似度矩阵中提取第二数量的列,添加至所述中间矩阵中;
判断所述中间矩阵的列数量是否达...

【专利技术属性】
技术研发人员:任冬淳夏华夏樊明宇丁曙光钱德恒
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1