当前位置: 首页 > 专利查询>吉林大学专利>正文

基于多智能体强化学习的多路口交通信号灯公平控制方法技术

技术编号:41974621 阅读:39 留言:0更新日期:2024-07-10 16:53
本发明专利技术属于智能交通控制技术领域,具体公开了基于多智能体强化学习的多路口交通信号灯公平控制方法,设计了一种新型的公平性度量指标,并提出了一种公平性感知的多智能体强化学习方法,可以在确保模型性能不受影响的前提下,提供相对公平的动作决策;提出了反事实数据增强的模块,通过利用反事实思想,基于已有的交互数据实现数据集的扩展,有利于丰富交互数据的多样性,进而在交互数据收集受限的任务中提高训练样本效率;设计了辅助自监督表示学习任务,通过状态之间天然的时序关系构建自监督表示学习损失,额外训练损失的引入有利于状态信息特征提取,提升模型训练样本效率。

【技术实现步骤摘要】

本专利技术涉及智能交通控制,特别是一种基于多智能体强化学习的多路口交通信号灯公平控制方法


技术介绍

1、多智能体强化学习算法具有感知和自主决策的能力,已经成功应用于游戏、机器人控制等领域,但是仍面临两个亟待解决的问题:

2、(1)决策公平性欠缺。决策公平性主要用于衡量模型在应对不同群体时能否指定合理、无偏见的决策,是多智能体强化学习算法应用于实际任务的重要参考指标之一,关乎不同群体的用户体验。例如在有限资源调度任务中,决策的公平性直接关系到不同参与群体的体验和后续发展态势,甚至会影响模型性能的长期收益。在上述任务中,具备公平性感知的策略决策方式能够平衡好性能与公平性之间的关系,避免部分参与者陷入“调度饥饿”的困境,从而提升模型整体性能实现长期收益更优的目标。然而,多智能体强化学习方法是以奖励信息为主导的,容易导致动作决策具有偏向性。现有方法主要是通过改变奖励函数结构,将决策公平性度量信息结合到奖励函数中来保证决策的公平性。然而,这类方法通常以牺牲模型整体性能为代价来保证决策公平性,从而导致在模型在任务的表现不如预期。因此,如何在权衡模型总体性本文档来自技高网...

【技术保护点】

1.基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,多路口交通信号灯控制问题描述为:

3.根据权利要求2所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,公平性感知的多智能体强化学习任务具体包括:

4.根据权利要求3所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,反事实数据增强过程具体包括:

5.根据权利要求4所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,自...

【技术特征摘要】

1.基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,多路口交通信号灯控制问题描述为:

3.根据权利要求2所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征...

【专利技术属性】
技术研发人员:杜昕祺陈贺昌常毅邢永恒张斯诺
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1