【技术实现步骤摘要】
本专利技术属于汽车控制,尤其涉及一种结合熵权法的悬架系统奖励赋权方法、介质及电子设备。
技术介绍
1、起初td3(twin delayed deep deterministic policy gradient)算法是由scott fujimoto等人在2018年提出的,是强化学习中用于解决连续动作空间问题的算法,特别适用于高维连续控制任务,例如机器人控制、自动驾驶等复杂系统。近年来,该算法被广泛应用于控制问题当中,然而,td3算法中的奖励函数设计环节经常是各控制问题中的关键点,尤其是在工程中常见的多目标优化问题上,合理的赋权能够使得网络具有对多目标的良好的同时收敛能力。
2、现有技术中,以actor-critic为框架的深度强化学习算法在多目标优化中面临一些显著的缺陷。特别是在基于时间差分驱动的td3算法中,奖励函数的权重赋予直接影响critic和actor网络的多目标收敛性能。然而,现有技术中普遍缺乏一种能够简单、有效且具有通用性的赋权机制,使得在实际应用中难以合理调节各目标的权重,导致智能体在多目标优化时容易出现性能失衡
...【技术保护点】
1.一种结合熵权法的悬架系统奖励赋权方法,其特征在于,包括:
2.根据权利要求1所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,步骤S2中的熵权奖励调整结构包括赋权触发模块、奖励矩阵模块、计算触发模块和熵权计算模块;其中:
3.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,所述奖励矩阵模块采集所述采样周期中的各个优化目标对应的奖励形成数据流矩阵,并所述数据流矩阵进行标准化处理;将标准化处理后的数据流矩阵按列归一化,得到所述奖励矩阵。
4.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,在所述
...【技术特征摘要】
1.一种结合熵权法的悬架系统奖励赋权方法,其特征在于,包括:
2.根据权利要求1所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,步骤s2中的熵权奖励调整结构包括赋权触发模块、奖励矩阵模块、计算触发模块和熵权计算模块;其中:
3.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,所述奖励矩阵模块采集所述采样周期中的各个优化目标对应的奖励形成数据流矩阵,并所述数据流矩阵进行标准化处理;将标准化处理后的数据流矩阵按列归一化,得到所述奖励矩阵。
4.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,在所述熵权计算模块中,通过下式计算每个优化目标对应的信息熵:
5.根据权利要求2所述的结合熵权法的悬架系统奖励赋权方法,其特征在于,步骤s2中的所述td3架构还包括acto...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。