自动泊车的学习方法、装置、云服务器及存储介质制造方法及图纸

技术编号:38853987 阅读:18 留言:0更新日期:2023-09-17 10:00
本申请涉及一种自动泊车的学习方法、装置、云服务器及存储介质,包括:计算评价者网络模型和执行者网络模型,分别得到第一初始权重参数和第二初始权重参数,控制至少一个待训练车辆分别根据第一和第二初始权重参数进行训练,生成泊车输出动作;接收评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据,确定第一模型权重参数的第一权重和第二模型权重参数的第二权重,对第一和第二模型权重参数加权计算,以更新第一和第二初始权重参数,利用训练完成的评价者和执行者网络模型控制至少一个待训练车辆执行泊车动作。由此,解决了训练后的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长等问题。过程冗长等问题。过程冗长等问题。

【技术实现步骤摘要】
自动泊车的学习方法、装置、云服务器及存储介质


[0001]本申请涉及自动驾驶
,特别涉及一种自动泊车的学习方法、装置、云服务器及存储介质。

技术介绍

[0002]随着车辆技术的快速发展,用户对于车辆的需求越来越大,停车位紧张的现象也逐渐加剧,因此易引发较多的泊车事故,为避免这一现象发生,需要对自动泊车技术进行不断优化。
[0003]相关技术中,大多将强化学习策略应用于自动驾驶算法当中,通过强化学习策略训练网络模型以指导自动泊车系统完成泊车动作。
[0004]然而,通过强化学习策略指导自动泊车系统完成泊车动作过程中,存在以下问题:(1)强化学习策略需要积累大量数据训练深度神经网络模型,而这些数据完全由车辆通过自身进行探索,从而会导致训练过程冗长;(2)若车辆在训练过程中尝试新的动作,以期望获得更高的奖励完成对动作的优化,为保证在深度强化学习过程中的收敛速度,训练出来的深度神经网络可能会陷入局部最优解;(3)通过云计算中心完成对车辆感知数据的训练,易导致数据隐私的泄露,亟需解决。

技术实现思路

[0005]本申请提供一种自动泊车的学习方法、装置、云服务器及存储介质,以解决相关技术中训练后的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长等问题。
[0006]本申请第一方面实施例提供一种自动泊车的学习方法,包括以下步骤:
[0007]基于云计算中心生成评价者网络模型和执行者网络模型;
[0008]利用所述云计算中心分别训练所述评价者网络模型和所述执行者网络模型得到所述评价者网络模型的第一初始权重参数和所述执行者网络模型的第二初始权重参数,将所述第一初始权重参数和所述第二初始权重参数发送至至少一个待训练车辆,并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练,生成所述至少一个待训练车辆的泊车输出动作;以及
[0009]接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据,并基于所述泊车评价数据确定所述第一模型权重参数的第一权重和所述第二模型权重参数的第二权重,且基于所述第一权重和所述第二权重,对所述第一模型权重参数和所述第二模型权重参数加权计算,并根据加权计算结果更新所述第一初始权重参数和所述第二初始权重参数,直至所述评价者网络模型和所述执行者网络模型满足预设结束训练条件,以利用训练完成的所述评价者网络模型和所述执行者网络模型控制所述至少一个待训练车辆执行泊车动作。
[0010]根据本申请的一个实施例,所述将所述第一初始权重参数和所述第二初始权重参
数发送至至少一个待训练车辆,并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练,包括:
[0011]获取所述至少一个待训练车辆的泊车场景;
[0012]根据所述泊车场景以及所述第一初始权重参数和所述第二初始权重参数训练所述至少一个待训练车辆的自动泊车算法,生成所述至少一个待训练车辆的评价者网络模型的第一初始权重参数和执行者网络模型的第二初始权重参数。
[0013]根据本申请的一个实施例,所述接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据之前,还包括:
[0014]基于所述至少一个待训练车辆的泊车输出动作,生成所述至少一个待训练车辆的泊车评价数据。
[0015]根据本申请的一个实施例,所述基于所述至少一个待训练车辆的泊车输出动作,生成所述至少一个待训练车辆的泊车评价数据,包括:
[0016]获取所述执行者网络模型的泊车输入信息,并根据所述执行者网络模型的泊车输入信息计算所述至少一个待训练车辆的泊车输出动作,并控制所述至少一个待训练车辆执行所述泊车输出动作;
[0017]基于所述执行者网络模型的泊车输出动作,生成所述至少一个待训练车辆的当前泊车状态,并计算所述至少一个待训练车辆在当前泊车状态下的评价者网络模型的奖励函数,生成所述至少一个待训练车辆的泊车评价数据。
[0018]根据本申请的一个实施例,基于所述执行者网络模型的泊车输出动作,生成所述至少一个待训练车辆的当前泊车状态,包括:
[0019]获取至少一个待训练车辆的泊车探索区域,基于执行者网络模型的泊车输出动作,确定评价者网络模型的奖励函数,以调整至少一个待训练车辆的泊车状态。
[0020]根据本申请的一个实施例,所述至少一个待训练车辆的泊车评价数据包括所述至少一个待训练车辆的中心位置与所述泊车探索区域中心位置的重合程度,以及所述至少一个待训练车辆的航向角与所述泊车探索区域方向的平行程度中的至少一种。
[0021]根据本申请的一个实施例,所述更新所述第一初始权重参数和所述第二初始权重参数的优化算法为梯度下降算法。
[0022]根据本申请实施例的自动泊车的学方法,通过计算基于云计算中心生成的评价者网络模型和执行者网络模型,分别得到第一初始权重参数和第二初始权重参数,将参数发送至至少一个待训练车辆,并控制至少一个待训练车辆分别根据第一和第二初始权重参数进行训练,生成泊车输出动作;接收评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据,确定第一模型权重参数的第一权重和第二模型权重参数的第二权重,对第一和第二模型权重参数加权计算,以更新第一和第二初始权重参数,利用训练完成的评价者网络模型和执行者网络模型控制至少一个待训练车辆执行泊车动作。由此,解决了训练的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长等问题,通过联邦学习和深度强化学习的结合,基于分布式系统完成深度强化学习训练过程,以提高网络模型的训练速度和训练结果的全面性,同时降低了数据泄露的风险。
[0023]本申请第二方面实施例提供一种自动泊车的学习装置,包括:
[0024]生成模块,用于基于云计算中心生成评价者网络模型和执行者网络模型;
[0025]控制模块,用于利用所述云计算中心分别训练所述评价者网络模型和所述执行者网络模型得到所述评价者网络模型的第一初始权重参数和所述执行者网络模型的第二初始权重参数,将所述第一初始权重参数和所述第二初始权重参数发送至至少一个待训练车辆,并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练,生成所述至少一个待训练车辆的泊车输出动作;以及
[0026]计算模块,用于接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据,并基于所述泊车评价数据确定所述第一模型权重参数的第一权重和所述第二模型权重参数的第二权重,且基于所述第一权重和所述第二权重,对所述第一模型权重参数和所述第二模型权重参数加权计算,并根据加权计算结果更新所述第一初始权重参数和所述第二初始权重参数,直至所述评价者网络模型和所述执行者网络模型满足本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动泊车的学习方法,其特征在于,包括以下步骤:基于云计算中心生成评价者网络模型和执行者网络模型;利用所述云计算中心分别训练所述评价者网络模型和所述执行者网络模型得到所述评价者网络模型的第一初始权重参数和所述执行者网络模型的第二初始权重参数,将所述第一初始权重参数和所述第二初始权重参数发送至至少一个待训练车辆,并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练,生成所述至少一个待训练车辆的泊车输出动作;以及接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据,并基于所述泊车评价数据确定所述第一模型权重参数的第一权重和所述第二模型权重参数的第二权重,且基于所述第一权重和所述第二权重,对所述第一模型权重参数和所述第二模型权重参数加权计算,并根据加权计算结果更新所述第一初始权重参数和所述第二初始权重参数,直至所述评价者网络模型和所述执行者网络模型满足预设结束训练条件,以利用训练完成的所述评价者网络模型和所述执行者网络模型控制所述至少一个待训练车辆执行泊车动作。2.根据权利要求1所述的方法,其特征在于,所述将所述第一初始权重参数和所述第二初始权重参数发送至至少一个待训练车辆,并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练,包括:获取所述至少一个待训练车辆的泊车场景;根据所述泊车场景以及所述第一初始权重参数和所述第二初始权重参数训练所述至少一个待训练车辆的自动泊车算法,生成所述至少一个待训练车辆的评价者网络模型的第一初始权重参数和执行者网络模型的第二初始权重参数。3.根据权利要求1所述的方法,其特征在于,所述接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据之前,还包括:基于所述至少一个待训练车辆的泊车输出动作,生成所述至少一个待训练车辆的泊车评价数据。4.根据权利要求3所述的方法,其特征在于,所述基于所述至少一个待训练车辆的泊车输出动作,生成所述至少一个待训练车辆的泊车评价数据,包括:获取所述执行者网络模型的泊车输入信息,并根据所述执行者网络模型的泊车输入信息计算所述至少一个待训练车辆的泊车输出动作,并控制所述至少一个待训练车辆执行所述泊车输出动作;基于所述执行者网络模型的泊车输出动作,生成所述至少一个待训练车辆的当前泊车状态,并计算所述至少一个待训练车辆在当前泊车状态...

【专利技术属性】
技术研发人员:黄秋生
申请(专利权)人:奇瑞智能汽车科技合肥有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1