基于双流信息瓶颈的深度强化学习行动者-评价者网络结构的车辆路径跟踪控制方法技术

技术编号:44601898 阅读:21 留言:0更新日期:2025-03-14 12:56
基于双流信息瓶颈的深度强化学习行动者‑评价者网络结构及对四轮独立转向独立驱动车辆的路径跟踪控制方法,包括:在Critic网络中,在Q值估计之前加入已知信息瓶颈模块,从中提取已知类信息,并设计训练目标以最小化时间差分误差、最小化互信息、并约束参数范数;在Actor网络中,在策略生成模块之前加入未知信息瓶颈模块,从中提取未知类信息,并设计训练目标以最大化期望累积奖励、最大化互信息、最小化条件熵;在训练过程中,将样本中的状态和动作输入Critic网络和互信息估计器网络,得到Q值估计和互信息估计,并通过最小化目标函数更新Critic网络参数;通过策略梯度定理和重要性采样来更新Actor网络参数,以最大化目标函数;同时,独立训练互信息估计器网络,通过采样和优化实现对互信息的最大化估计;为了实现动态调节,设置权重调度器,根据当前训练轮数和平均回报,动态调整Actor和Critic目标函数中的系数,并使用线性衰减策略进行调节。

【技术实现步骤摘要】

本专利技术涉及深度强化学习中的行动者-评价者网络结构及对车辆的路径跟踪控制,具体设计利用双流信息瓶颈技术,去除样本中的冗余信息,提取数据中的高维特征,减少泛化错误。缓解ib导致drl对已知数据的过度拟合,提高drl控制器对车辆路径跟踪的控制精度和泛化能力。


技术介绍

1、深度强化学习(drl)是一种结合了深度学习和强化学习的技术,用于解决复杂的决策和控制问题。在drl中,行动者-评价者(行动者-评论者)网络结构是一种广泛应用的算法架构,具有重要的理论和实际意义。该结构由两个主要组件组成:行动者网络和评价者网络,两者协同工作以优化智能体在环境中的行为策略。行动者网络负责生成策略(policy),即在给定状态下选择最优动作,通过策略梯度方法来更新参数,以最大化长期累积的预期奖励;评价者网络负责评估行动者网络选择的动作的价值,即计算状态-动作值函数(q值),通过最小化时间差分误差(td误差)来更新参数,从而提供一个更准确的价值评估。传统的强化学习方法在处理高维度状态空间和连续动作空间时面临挑战,随着深度学习的发展,将深度神经网络引入强化学习中产生了深度强化学习方本文档来自技高网...

【技术保护点】

1.基于双流信息瓶颈的深度强化学习行动者-评论者架构的车辆路径跟踪控制方法,使用信息瓶颈IB去除样本中的冗余信息,提取数据中的高维特征,减少泛化错误;为了缓解IB导致深度强化学习DRL对已知数据的过度拟合,反向信息瓶颈RIB反转IB的优化目标,生成具有判别力的未知环境特征信息,提高DRL控制器的泛化能力;具体实施步骤包括:

2.如权利要求1所述的基于双流信息瓶颈的深度强化学习行动者-评论者架构的车辆路径跟踪控制方法,其特征在于,步骤1中,车辆动力学模型包括车身动力学模型和轮胎模型,;OXYZ和OvXvYvZv分别表示为大地惯性参考系和车身惯性参考系;假设路径跟踪发生在平坦的道...

【技术特征摘要】

1.基于双流信息瓶颈的深度强化学习行动者-评论者架构的车辆路径跟踪控制方法,使用信息瓶颈ib去除样本中的冗余信息,提取数据中的高维特征,减少泛化错误;为了缓解ib导致深度强化学习drl对已知数据的过度拟合,反向信息瓶颈rib反转ib的优化目标,生成具有判别力的未知环境特征信息,提高drl控制器的泛化能力;具体实施步骤包括:

2.如权利要求1所述的基于双流信息瓶颈的深度强化学习行动者-评论者架构的车辆路径跟踪控制方法,其特征在于,步骤1中,车辆动力学模型包括车身动力学模型和轮胎模型,;oxyz和ovxvyvzv分别表示为大地惯性参考系和车身惯性参考系;假设路径跟踪发生在平坦的道路上;车身的横摆运...

【专利技术属性】
技术研发人员:华夏张腾腾程相乐
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1