一种交互场景下的多智能体协同交互决策与控制方法技术

技术编号:45949265 阅读:11 留言:0更新日期:2025-07-29 17:51
本发明专利技术提出一种交互场景下的多智能体协同交互决策与控制方法,首先各智能体获取对抗场景的时序状态信息;在各智能体的决策系统中,获取的对抗场景时序状态信息输入LSTM网络进行预测和特征提取,得到隐藏状态,将隐藏状态输入到SAC强化学习模型中,并通过设计的奖励函数对LSTM网络以及SAC强化学习模型进行训练,最终得到各智能体的机动决策动作向量;各智能体以机动决策动作向量作为控制目标值,依据离散增量式PID控制器对智能体进行控制。该方法基于多智能体SAC强化学习算法,结合了LSTM时序处理和双经验回放机制,并通过设计合理的奖励函数机制,在具有复杂动态物体的环境中,能够快速预测动态物体的运动轨迹,对自身连续动作量进行准确决策。

【技术实现步骤摘要】

本专利技术涉及智能体决策与控制领域,具体为一种交互场景下的多智能体协同交互决策与控制方法


技术介绍

1、智能体(agent)是能够感知环境并自主决策的ai实体,而多智能体系统(mas)通过协作突破个体能力限制,借助信息共享和任务分担提升系统效能,广泛应用于各个领域。由于环境部分可观测、个体与群体利益冲突等问题,mas协作需动态协调而非简单行为叠加。多智能体强化学习(marl)将强化学习的试错优化机制引入mas,以马尔可夫决策过程(mdp)为框架,通过环境反馈训练群体协作策略,自littman提出基础框架后,现已成为分布式决策、智能机器人等领域的核心技术。

2、在多智能体系统广泛应用于复杂交互场景(如自动飞行应对空中目标、自动驾驶应对复杂路况等)的背景下,智能体面临着动态且充满不确定性的环境。在此类场景中,障碍物或对手的位置、速度等关键信息随时间快速变化,这对智能体的决策与控制能力提出了极高要求。

3、传统的多智能体强化学习方案在应对复杂交互场景下的智能体决策与控制任务时,存在显著的技术瓶颈。传统方案通常仅依据当前状态进行决策,忽略本文档来自技高网...

【技术保护点】

1.一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:包括以下步骤:

2.根据权利要求1所述一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:步骤1中,智能体获取的对抗场景的时序状态信息包括:

3.根据权利要求1所述一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:步骤2中,所述隐藏状态向量的维度低于智能体获取的对抗场景的时序状态信息维度,且所述隐藏状态向量中,显式包含了对方智能体下一时间步中相对己方智能体自身的三维坐标预测值。

4.根据权利要求1或3所述一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:步骤3中...

【技术特征摘要】

1.一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:包括以下步骤:

2.根据权利要求1所述一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:步骤1中,智能体获取的对抗场景的时序状态信息包括:

3.根据权利要求1所述一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:步骤2中,所述隐藏状态向量的维度低于智能体获取的对抗场景的时序状态信息维度,且所述隐藏状态向量中,显式包含了对方智能体下一时间步中相对己方智能体自身的三维坐标预测值。

4.根据权利要求1或3所述一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:步骤3中,所述sac强化学习模型包括actor网络和critic网络;

5.根据权利要求4所述一种交互场景下的多智能体协同交互决策与控制方法,其特征在于:步骤3中,在训练过程中,设计的奖励函数包括角度优势奖励,高度优势奖励,速度优势奖励和胜负奖励,而且还添加了轨迹预测奖励,最终奖励函数为添加随机权重的各奖励函数之和。

6.根据权利要求5所述一种交互...

【专利技术属性】
技术研发人员:都岩巍张庆昊许斌张睿卢俊国朱震谭富威杨瑞
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1