结合因果模型和深度强化学习的多智能体避障方法及系统技术方案

技术编号：40116587 阅读：44 留言：0更新日期：2024-01-23 20:00

本发明专利技术公开了一种结合因果模型和深度强化学习的多智能体避障方法、系统、设备及介质，其中所述方法包括：针对多智能体中的每个智能体，实时获取所述智能体与目标点之间的相对位置信息、所述智能体的当前运行速度及其对周围环境采集到的连续三帧图像；利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息；利用深度强化学习模型对所述有效特征信息、所述相对位置信息和所述当前运行速度进行处理，得到所述智能体在下一时刻的运动控制信息。本发明专利技术所提出的避障控制策略可以适用于不同的现实环境，并且可以在无通信环境下稳定执行。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能控制，具体是涉及一种结合因果模型和深度强化学习的多智能体避障方法、系统、设备及介质。

技术介绍

1、随着人工智能、机器学习和自主控制技术的不断发展，利用多智能体进行环境探测已经是机器人
的热点研究方向之一，其中的多智能体避障控制策略是尤为重要的一环。目前已有学者提出一种基于视觉的无人机分布式避障策略学习方法，在三维空间中采用基于策略梯度的强化学习算法和自动编码器，主要对无人机提供的深度图像和惯性测量信息进行解析以获取无人机的下一个控制指令，但是该方法过于依赖无人机在训练过程中遇到的环境，当无人机从训练环境迁移到现实环境中运行时，对无人机的控制效果不佳。

技术实现思路

1、本专利技术提供一种结合因果模型和深度强化学习的多智能体避障方法、系统、设备及介质，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

2、第一方面，提供一种结合因果模型和深度强化学习的多智能体避障方法，所述方法包括：

3、针对多智能体中的每个智能体...

【技术保护点】

1.一种结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述方法包括：

2.根据权利要求1所述的结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述因果模型包括编码器和解码器，所述编码器中设置有多个编码层，所述解码器中设置有多个解码层，所述多个编码层与所述多个解码层的数量相同。

3.根据权利要求2所述的结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述利用因果模型对所述连续三帧图像进行学习，并在学习过程中利用马尔科夫毯进行特征筛选，得到有效特征信息包括：

4.根据权利要求3所述的结合因果模型和深度强化学习的多智能体避障方...

【技术特征摘要】

1.一种结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述方法包括：

4.根据权利要求3所述的结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述利用马尔科夫毯对所述低维特征信息进行筛选得到关联特征信息包括：

5.根据权利要求2所述的结合因果模型和深度强化学习的多智能体避障方法，其特征在于，所述因果模型以学习损失最小化为目标函数，所述目标函数的表达式为：

6.根据权利要求1所述的结合因果模型和深度强化学习的多智能体避障方法，其特征在于，...

【专利技术属性】
技术研发人员：于沂渭，范衠，王顺鸽，王诏君，李文姬，魏沛蔚，翟昊，郝志峰，
申请(专利权)人：汕头大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人