【技术实现步骤摘要】
本专利技术涉及智能交通控制,特别是一种基于多智能体强化学习的多路口交通信号灯公平控制方法。
技术介绍
1、多智能体强化学习算法具有感知和自主决策的能力,已经成功应用于游戏、机器人控制等领域,但是仍面临两个亟待解决的问题:
2、(1)决策公平性欠缺。决策公平性主要用于衡量模型在应对不同群体时能否指定合理、无偏见的决策,是多智能体强化学习算法应用于实际任务的重要参考指标之一,关乎不同群体的用户体验。例如在有限资源调度任务中,决策的公平性直接关系到不同参与群体的体验和后续发展态势,甚至会影响模型性能的长期收益。在上述任务中,具备公平性感知的策略决策方式能够平衡好性能与公平性之间的关系,避免部分参与者陷入“调度饥饿”的困境,从而提升模型整体性能实现长期收益更优的目标。然而,多智能体强化学习方法是以奖励信息为主导的,容易导致动作决策具有偏向性。现有方法主要是通过改变奖励函数结构,将决策公平性度量信息结合到奖励函数中来保证决策的公平性。然而,这类方法通常以牺牲模型整体性能为代价来保证决策公平性,从而导致在模型在任务的表现不如预期。因此,
...【技术保护点】
1.基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,多路口交通信号灯控制问题描述为:
3.根据权利要求2所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,公平性感知的多智能体强化学习任务具体包括:
4.根据权利要求3所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,反事实数据增强过程具体包括:
5.根据权利要求4所述的基于多智能体强化学习的多路口交通信号灯公平控制
...【技术特征摘要】
1.基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,多路口交通信号灯控制问题描述为:
3.根据权利要求2所述的基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征...
【专利技术属性】
技术研发人员:杜昕祺,陈贺昌,常毅,邢永恒,张斯诺,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。