【技术实现步骤摘要】
本专利技术涉及深度强化学习中的行动者-评价者网络结构及对车辆的路径跟踪控制,具体设计利用双流信息瓶颈技术,去除样本中的冗余信息,提取数据中的高维特征,减少泛化错误。缓解ib导致drl对已知数据的过度拟合,提高drl控制器对车辆路径跟踪的控制精度和泛化能力。
技术介绍
1、深度强化学习(drl)是一种结合了深度学习和强化学习的技术,用于解决复杂的决策和控制问题。在drl中,行动者-评价者(行动者-评论者)网络结构是一种广泛应用的算法架构,具有重要的理论和实际意义。该结构由两个主要组件组成:行动者网络和评价者网络,两者协同工作以优化智能体在环境中的行为策略。行动者网络负责生成策略(policy),即在给定状态下选择最优动作,通过策略梯度方法来更新参数,以最大化长期累积的预期奖励;评价者网络负责评估行动者网络选择的动作的价值,即计算状态-动作值函数(q值),通过最小化时间差分误差(td误差)来更新参数,从而提供一个更准确的价值评估。传统的强化学习方法在处理高维度状态空间和连续动作空间时面临挑战,随着深度学习的发展,将深度神经网络引入强化学习中
...【技术保护点】
1.基于双流信息瓶颈的深度强化学习行动者-评论者架构的车辆路径跟踪控制方法,使用信息瓶颈IB去除样本中的冗余信息,提取数据中的高维特征,减少泛化错误;为了缓解IB导致深度强化学习DRL对已知数据的过度拟合,反向信息瓶颈RIB反转IB的优化目标,生成具有判别力的未知环境特征信息,提高DRL控制器的泛化能力;具体实施步骤包括:
2.如权利要求1所述的基于双流信息瓶颈的深度强化学习行动者-评论者架构的车辆路径跟踪控制方法,其特征在于,步骤1中,车辆动力学模型包括车身动力学模型和轮胎模型,;OXYZ和OvXvYvZv分别表示为大地惯性参考系和车身惯性参考系;假设路
...【技术特征摘要】
1.基于双流信息瓶颈的深度强化学习行动者-评论者架构的车辆路径跟踪控制方法,使用信息瓶颈ib去除样本中的冗余信息,提取数据中的高维特征,减少泛化错误;为了缓解ib导致深度强化学习drl对已知数据的过度拟合,反向信息瓶颈rib反转ib的优化目标,生成具有判别力的未知环境特征信息,提高drl控制器的泛化能力;具体实施步骤包括:
2.如权利要求1所述的基于双流信息瓶颈的深度强化学习行动者-评论者架构的车辆路径跟踪控制方法,其特征在于,步骤1中,车辆动力学模型包括车身动力学模型和轮胎模型,;oxyz和ovxvyvzv分别表示为大地惯性参考系和车身惯性参考系;假设路径跟踪发生在平坦的道路上;车身的横摆运...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。