当前位置: 首页 > 专利查询>吉林大学专利>正文

结合熵权法的悬架系统奖励赋权方法、介质及电子设备技术方案

技术编号:45568982 阅读:17 留言:0更新日期:2025-06-17 18:34
本发明专利技术涉及汽车控制技术领域,尤其涉及一种结合熵权法的悬架系统奖励赋权方法、介质及电子设备,确定控制悬架系统的多个优化目标;构建带有熵权奖励调整结构的TD3架构,并根据多个优化目标对TD3架构进行训练,熵权奖励调整结构在训练过程中周期性采集产生的奖励,并利用熵权法计算各个优化目标对应的奖励权重;最后将符合步骤S1的优化目标的当前环境状态输入步骤S2得到的TD3模型中,预测所述悬架系统的输出动作。本发明专利技术结合熵权法动态调整奖励的权重系数,达到平衡冲突目标之间的收敛程度、收敛速度差异的目的。

【技术实现步骤摘要】

本专利技术属于汽车控制,尤其涉及一种结合熵权法的悬架系统奖励赋权方法、介质及电子设备


技术介绍

1、起初td3(twin delayed deep deterministic policy gradient)算法是由scott fujimoto等人在2018年提出的,是强化学习中用于解决连续动作空间问题的算法,特别适用于高维连续控制任务,例如机器人控制、自动驾驶等复杂系统。近年来,该算法被广泛应用于控制问题当中,然而,td3算法中的奖励函数设计环节经常是各控制问题中的关键点,尤其是在工程中常见的多目标优化问题上,合理的赋权能够使得网络具有对多目标的良好的同时收敛能力。

2、现有技术中,以actor-critic为框架的深度强化学习算法在多目标优化中面临一些显著的缺陷。特别是在基于时间差分驱动的td3算法中,奖励函数的权重赋予直接影响critic和actor网络的多目标收敛性能。然而,现有技术中普遍缺乏一种能够简单、有效且具有通用性的赋权机制,使得在实际应用中难以合理调节各目标的权重,导致智能体在多目标优化时容易出现性能失衡的问题。例如,在涉及本文档来自技高网...

【技术保护点】

1.一种结合熵权法的悬架系统奖励赋权方法,其特征在于,包括:

2.根据权利要求1所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,步骤S2中的熵权奖励调整结构包括赋权触发模块、奖励矩阵模块、计算触发模块和熵权计算模块;其中:

3.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,所述奖励矩阵模块采集所述采样周期中的各个优化目标对应的奖励形成数据流矩阵,并所述数据流矩阵进行标准化处理;将标准化处理后的数据流矩阵按列归一化,得到所述奖励矩阵。

4.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,在所述熵权计算模块中,通过...

【技术特征摘要】

1.一种结合熵权法的悬架系统奖励赋权方法,其特征在于,包括:

2.根据权利要求1所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,步骤s2中的熵权奖励调整结构包括赋权触发模块、奖励矩阵模块、计算触发模块和熵权计算模块;其中:

3.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,所述奖励矩阵模块采集所述采样周期中的各个优化目标对应的奖励形成数据流矩阵,并所述数据流矩阵进行标准化处理;将标准化处理后的数据流矩阵按列归一化,得到所述奖励矩阵。

4.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,在所述熵权计算模块中,通过下式计算每个优化目标对应的信息熵:

5.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,步骤s2中的所述td3架构还包括acto...

【专利技术属性】
技术研发人员:胡育熙王铖崔笑仙郭孔辉
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1