模型训练方法、轨迹预测方法、装置及自动驾驶车辆制造方法及图纸

技术编号:33736097 阅读:11 留言:0更新日期:2022-06-08 21:32
本公开提供了一种模型训练方法、轨迹预测方法、装置及自动驾驶车辆,涉及人工智能领域,尤其涉及深度学习、自动驾驶和智能交通技术领域。具体实现方案包括:根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,n=1,......N,N为大于1的整数;利用中间网络模型,执行由第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果;根据轨迹预测结果和第一动作选择策略,确定第二动作选择策略;以及根据第二动作选择策略,对待训练模型的模型参数进行第n+1轮次调整。型参数进行第n+1轮次调整。型参数进行第n+1轮次调整。

【技术实现步骤摘要】
模型训练方法、轨迹预测方法、装置及自动驾驶车辆


[0001]本公开涉及人工智能领域,尤其涉及深度学习、自动驾驶和智能交通
,可应用于模型训练和轨迹预测等场景。

技术介绍

[0002]深度学习在自动驾驶领域中的作用日益凸显,网络模型训练是深度学习技术的核心内容。但是,在一些场景下,网络模型训练存在训练效率低、训练效果不佳的现象。

技术实现思路

[0003]本公开提供了一种模型训练方法、轨迹预测方法及装置、设备、介质、产品及自动驾驶车辆。
[0004]根据本公开的一方面,提供了一种模型训练方法,包括:根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,n=1,......N,N为大于1的整数;利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果;根据所述轨迹预测结果和所述第一动作选择策略,确定第二动作选择策略;以及根据所述第二动作选择策略,对所述待训练模型的模型参数进行第n+1轮次调整。
[0005]根据本公开的另一方面,提供了一种轨迹预测方法,包括:获取待处理的源数据;以及利用轨迹预测模型,进行基于所述源数据的至少一个轨迹预测动作,得到轨迹预测结果,所述轨迹预测模型采用上述任一方面的模型训练方法生成。
[0006]根据本公开的另一方面,提供了一种模型训练装置,包括:第一处理模块,用于根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,n=1,......N,N为大于1的整数;第二处理模块,用于利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果;第三处理模块,用于根据所述轨迹预测结果和所述第一动作选择策略,确定第二动作选择策略;以及第四处理模块,用于根据所述第二动作选择策略,对所述待训练模型的模型参数进行第n+1轮次调整。
[0007]根据本公开的另一方面,提供了一种轨迹预测装置,包括:获取模块,用于获取待处理的源数据;以及第五处理模块,用于利用轨迹预测模型,进行基于所述源数据的至少一个轨迹预测动作,得到轨迹预测结果,所述轨迹预测模型采用上述任一方面的模型训练装置生成。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与所述至少一个处理器通信连接的存储器。其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一方面的模型训练方法,或者执行上述任一方面的轨迹预测方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,所述计算机指令用于使所述计算机执行上述任一方面的模型训练方法,或者执行上述任一方面的轨迹预测方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述任一方面的模型训练方法,或者实现上述任一方面的轨迹预测方法。
[0011]根据本公开的另一方面,提供了一种自动驾驶车辆,包括上述的电子设备。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1示意性示出了根据本公开一实施例的模型训练方法和装置的系统架构;
[0015]图2示意性示出了根据本公开一实施例的模型训练方法的流程图;
[0016]图3示意性示出了根据本公开另一实施例的模型训练方法的流程图;
[0017]图4示意性示出了根据本公开一实施例的模型训练过程的示意图;
[0018]图5示意性示出了根据本公开一实施例的轨迹预测方法的流程图;
[0019]图6示意性示出了根据本公开一实施例的模型训练装置的框图;
[0020]图7示意性示出了根据本公开一实施例的轨迹预测装置的框图;
[0021]图8示意性示出了根据本公开的实施例的用于执行模型训练电子设备的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包括”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0024]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0025]在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
[0026]本公开实施例提供了一种模型训练方法。本方法包括:根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,n=1,......N,N为大于1的整数;利用中间网络模型,执行由第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果;根据轨迹预测结果和第一动作选择策略,确定第二动作
选择策略;以及根据第二动作选择策略,对待训练模型的模型参数进行第n+1轮次调整。
[0027]图1示意性示出了根据本公开一实施例的模型训练方法和装置的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
[0028]根据该实施例的系统架构100可以包括请求终端101、网络102和服务器103。网络102用于在请求终端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云计算、网络服务、中间件服务等基础云计算服务的云服务器。
[0029]请求终端101通过网络102与服务器103进行交互,以接收或发送数据等。请求终端101例如用于向服务器103发送模型训练请求,请求终端101例如还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,其中,n=1,......N,N为大于1的整数;利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果;根据所述轨迹预测结果和所述第一动作选择策略,确定第二动作选择策略;以及根据所述第二动作选择策略,对所述待训练模型的模型参数进行第n+1轮次调整。2.根据权利要求1所述的方法,其中,所述至少一个轨迹预测动作包括以下动作中的至少之一:针对至少一个障碍物中的目标障碍物,确定针对所述目标障碍物的时间交互特征;确定所述目标障碍物与其他障碍物之间的空间交互特征;确定所述目标障碍物与行驶环境之间的环境交互特征,其中,所述目标障碍物包括所述至少一个障碍物中的任意障碍物,所述其他障碍物包括所述至少一个障碍物中的除所述目标障碍物以外的障碍物。3.根据权利要求2所述的方法,其中,所述利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果,包括:在所述至少一个轨迹预测动作包括确定所述时间交互特征的情况下,根据由所述训练样本数据指示的所述目标障碍物基于至少一个历史时刻的位置信息,确定针对所述目标障碍物的所述时间交互特征;以及基于所述时间交互特征进行障碍物轨迹预测,得到所述轨迹预测结果。4.根据权利要求2所述的方法,其中,所述利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果,包括:在所述至少一个轨迹预测动作包括确定所述空间交互特征的情况下,根据由所述训练样本数据指示的各障碍物基于至少一个历史时刻的位置信息,确定所述目标障碍物与所述其他障碍物之间的基于每个历史时刻的空间交互子特征;根据预设的第一注意力矩阵,对所述基于每个历史时刻的空间交互子特征进行加权,得到所述空间交互特征;以及基于所述空间交互特征进行障碍物轨迹预测,得到所述轨迹预测结果。5.根据权利要求2所述的方法,其中,所述训练样本数据指示所述目标障碍物基于至少一个历史时刻的位置信息和所述行驶环境中的道路信息;所述利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作,得到轨迹预测结果,包括:在所述至少一个轨迹预测动作包括确定所述环境交互特征的情况下,根据所述目标障碍物基于至少一个历史时刻的位置信息,确定针对所述目标障碍物的至少一个轨迹向量;根据所述行驶环境中的道路信息,确定至少一个道路向量;根据所述至少一个轨迹向量和所述至少一个道路向量,确定与所述目标障碍物关联的所述环境交互特征;以及基于所述环境交互特征进行障碍物轨迹预测,得到所述轨迹预测结果。
6.根据权利要求5所述的方法,其中,所述根据所述至少一个轨迹向量和所述至少一个道路向量,确定与所述目标障碍物关联的所述环境交互特征,包括:针对所述至少一个轨迹向量中的每个轨迹向量,将所述轨迹向量和与所述轨迹向量满足预设距离阈值条件的道路向量连接,生成邻接关系矩阵;以及基于所述邻接关系矩阵进行交互信息提取,得到与所述目标障碍物关联的所述环境交互特征。7.根据权利要求1所述的方法,其中,所述根据所述轨迹预测结果和所述第一动作选择策略,确定第二动作选择策略,包括:根据所述轨迹预测结果和由验证样本数据指示的障碍物轨迹标签,确定针对所述第一动作选择策略的奖励函数值;以及根据所述奖励函数值和所述第一动作选择策略,确定所述第二动作选择策略。8.根据权利要求7所述的方法,其中,所述第一动作选择策略包括针对所述至少一个轨迹预测动作的控制参数;所述根据所述奖励函数值和所述第一动作选择策略,确定所述第二动作选择策略,包括:在所述奖励函数值大于预设奖励阈值的情况下,根据所述奖励函数值对所述第一动作选择策略中的所述控制参数进行调整,得到所述第二动作选择策略。9.根据权利要求8所述的方法,其中,所述根据所述奖励函数值和所述第一动作选择策略,确定所述第二动作选择策略,还包括:在所述奖励函数值小于等于所述预设奖励阈值,或者针对所述待训练模型的模型参数的调整轮次小于预设轮次阈值的情况下,随机选择动作选择策略,以作为所述第二动作选择策略。10.一种轨迹预测方法,包括:获取待处理的源数据;以及利用轨迹预测模型,进行基于所述源数据的至少一个轨迹预测动作,得到轨迹预测结果,其中,所述轨迹预测模型采用如权利要求1至9中任一项所述的方法生成。11.一种模型训练装置,包括:第一处理模块,用于根据第一动作选择策略,对待训练模型的模型参数进行第n轮次调整,得到中间网络模型,其中,n=1,......N,N为大于1的整数;第二处理模块,用于利用所述中间网络模型,执行由所述第一动作选择策略指示的基于训练样本数据的至少一个轨迹预测动作...

【专利技术属性】
技术研发人员:郑欣悦柳长春朱振广孙灏
申请(专利权)人:阿波罗智能技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1