【技术实现步骤摘要】
模型训练方法、轨迹预测方法、装置及自动驾驶车辆
[0001]本公开涉及人工智能领域,尤其涉及深度学习、自动驾驶和智能交通
,可应用于模型训练和轨迹预测等场景。
技术介绍
[0002]深度学习在自动驾驶领域中的作用日益凸显,网络模型训练是深度学习技术的核心内容。但是,在一些场景下,网络模型训练存在训练效率低、训练效果不佳的现象。
技术实现思路
[0003]本公开提供了一种模型训练方法、轨迹预测方法及装置、设备、介质、产品及自动驾驶车辆。
[0004]根据本公开的一方面,提供了一种模型训练方法,包括:根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,n=1,......N,N为大于1的整数;利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果;根据所述轨迹预测结果和所述第一动作选择策略,确定第二动作选择策略;以及根据所述第二动作选择策略,对所述待训练模型的模型参数进行第n+1轮次调整。
[0005]根据本公开的另一方面,提供了一种轨迹预测方法,包括:获取待处理的源数据;以及利用轨迹预测模型,进行基于所述源数据的至少一个轨迹预测动作,得到轨迹预测结果,所述轨迹预测模型采用上述任一方面的模型训练方法生成。
[0006]根据本公开的另一方面,提供了一种模型训练装置,包括:第一处理模块,用于根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,n=1,......N,N为 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,包括:根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,其中,n=1,......N,N为大于1的整数;利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果;根据所述轨迹预测结果和所述第一动作选择策略,确定第二动作选择策略;以及根据所述第二动作选择策略,对所述待训练模型的模型参数进行第n+1轮次调整。2.根据权利要求1所述的方法,其中,所述至少一个轨迹预测动作包括以下动作中的至少之一:针对至少一个障碍物中的目标障碍物,确定针对所述目标障碍物的时间交互特征;确定所述目标障碍物与其他障碍物之间的空间交互特征;确定所述目标障碍物与行驶环境之间的环境交互特征,其中,所述目标障碍物包括所述至少一个障碍物中的任意障碍物,所述其他障碍物包括所述至少一个障碍物中的除所述目标障碍物以外的障碍物。3.根据权利要求2所述的方法,其中,所述利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果,包括:在所述至少一个轨迹预测动作包括确定所述时间交互特征的情况下,根据由所述训练样本数据指示的所述目标障碍物基于至少一个历史时刻的位置信息,确定针对所述目标障碍物的所述时间交互特征;以及基于所述时间交互特征进行障碍物轨迹预测,得到所述轨迹预测结果。4.根据权利要求2所述的方法,其中,所述利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果,包括:在所述至少一个轨迹预测动作包括确定所述空间交互特征的情况下,根据由所述训练样本数据指示的各障碍物基于至少一个历史时刻的位置信息,确定所述目标障碍物与所述其他障碍物之间的基于每个历史时刻的空间交互子特征;根据预设的第一注意力矩阵,对所述基于每个历史时刻的空间交互子特征进行加权,得到所述空间交互特征;以及基于所述空间交互特征进行障碍物轨迹预测,得到所述轨迹预测结果。5.根据权利要求2所述的方法,其中,所述训练样本数据指示所述目标障碍物基于至少一个历史时刻的位置信息和所述行驶环境中的道路信息;所述利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果,包括:在所述至少一个轨迹预测动作包括确定所述环境交互特征的情况下,根据所述目标障碍物基于至少一个历史时刻的位置信息,确定针对所述目标障碍物的至少一个轨迹向量;根据所述行驶环境中的道路信息,确定至少一个道路向量;根据所述至少一个轨迹向量和所述至少一个道路向量,确定与所述目标障碍物关联的所述环境交互特征;以及基于所述环境交互特征进行障碍物轨迹预测,得到所述轨迹预测结果。
6.根据权利要求5所述的方法,其中,所述根据所述至少一个轨迹向量和所述至少一个道路向量,确定与所述目标障碍物关联的所述环境交互特征,包括:针对所述至少一个轨迹向量中的每个轨迹向量,将所述轨迹向量和与所述轨迹向量满足预设距离阈值条件的道路向量连接,生成邻接关系矩阵;以及基于所述邻接关系矩阵进行交互信息提取,得到与所述目标障碍物关联的所述环境交互特征。7.根据权利要求1所述的方法,其中,所述根据所述轨迹预测结果和所述第一动作选择策略,确定第二动作选择策略,包括:根据所述轨迹预测结果和由验证样本数据指示的障碍物轨迹标签,确定针对所述第一动作选择策略的奖励函数值;以及根据所述奖励函数值和所述第一动作选择策略,确定所述第二动作选择策略。8.根据权利要求7所述的方法,其中,所述第一动作选择策略包括针对所述至少一个轨迹预测动作的控制参数;所述根据所述奖励函数值和所述第一动作选择策略,确定所述第二动作选择策略,包括:在所述奖励函数值大于预设奖励阈值的情况下,根据所述奖励函数值对所述第一动作选择策略中的所述控制参数进行调整,得到所述第二动作选择策略。9.根据权利要求8所述的方法,其中,所述根据所述奖励函数值和所述第一动作选择策略,确定所述第二动作选择策略,还包括:在所述奖励函数值小于等于所述预设奖励阈值,或者针对所述待训练模型的模型参数的调整轮次小于预设轮次阈值的情况下,随机选择动作选择策略,以作为所述第二动作选择策略。10.一种轨迹预测方法,包括:获取待处理的源数据;以及利用轨迹预测模型,进行基于所述源数据的至少一个轨迹预测动作,得到轨迹预测结果,其中,所述轨迹预测模型采用如权利要求1至9中任一项所述的方法生成。11.一种模型训练装置,包括:第一处理模块,用于根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,其中,n=1,......N,N为大于1的整数;第二处理模块,用于利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作...
【专利技术属性】
技术研发人员:郑欣悦,柳长春,朱振广,孙灏,
申请(专利权)人:阿波罗智能技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。