一种基于IROS的多智能体强化学习方法、系统和介质技术方案

技术编号：40396429 阅读：5 留言：0更新日期：2024-02-20 22:24

本发明专利技术提供了一种基于IROS的多智能体强化学习方法、系统和介质，属于多智能体强化学习技术领域。通过以下技术方案实现：使用建图定位技术对机器人所处的环境建模，并获得智能体的状态信息；通过IROS将智能体的状态信息发送至算法模型，算法模型根据所有智能体的状态信息进行模型的训练；将训练好的模型参数通过IROS周期性的发送给每个智能体，智能体以此进行实时决策，多个智能体进行协同完成目标任务。本发明专利技术有效的提高了智能体的协作能力，同时也降低了算法模型和智能体间进行通信的时延，提升了系统的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于iros的多智能体强化学习方法、系统和介质，属于多智能体强化学习。

技术介绍

1、在传统的行业中，机器人取得了巨大的发展，在单调、重复率高、危险性强的工作中机器人已被大量使用。机器人之间如何协作是一个重点研究方向。多机器人系统具备环境的适应能力，效率高、成本低和鲁棒性高等优势。经典的解决方法依赖于人为设计和先验知识。多智能体强化学习可以通过与环境进行交互学习到知识，完成智能体间的协作。另外，强化学习等人工智能方法需要很大的算力，将机器人执行和算法模型的训练进行分离。因此机器人和算法模型之间需要进行通信。现有的通信方法的时延过大，由此导致决策不及时，影响系统的性能。

技术实现思路

1、本专利技术目的是提供了一种基于iros的多智能体强化学习方法、系统和介质，有效的提高了智能体的协作能力，同时也降低了算法模型和智能体间进行通信的时延，提升了系统的性能。

2、本专利技术为实现上述目的，所述方法通过以下技术方案实现：

3、使用建图定位技术对机器人所处的环境建模，并获得智能体的状态信息；

4、通过iros将智能体的状态信息发送至算法模型，算法模型根据所有智能体的状态信息进行模型的训练；

5、将训练好的模型参数通过iros周期性的发送给每个智能体，智能体以此进行实时决策，多个智能体进行协同完成目标任务。

6、优选的，所述建图定位技术采用指纹定位方法。

7、优选的，所述通过iros将智能体的状态信息发送

8、优选的，所述将训练好的模型参数通过iros周期性的发送给每个智能体具体方式如下：算法模型训练完模型，将训练好的模型参数发送至iros消息系统中间件，所述iros消息系统中间件的周期性地将模型训练得到的参数传递给智能体。

9、优选的，所述算法模型为基于价值的vdn模型，所述vdn模型根据多个智能体的联合价值函数近似为多个单智能体的价值函数的和进行值函数的分解，并根据各个智能体观测、智能体的决策、环境的反馈信息进行模型的训练，优化系统的联合价值函数，使系统的联合价值函数最大，得到了各个智能体的价值函数。

10、优选的，各个智能体使用相同的参数，所有的智能体使用同一个值函数网络。

11、优选的，所述智能体以此进行实时决策，多个智能体进行协同完成目标任务具体方式如下：智能体将实时采集到状态信息送入到值函数网络中生成决策信息，指导智能体进行决策，实现多智能体的协作。

12、一种基于iros的多智能体强化学习系统，包括：

13、环境建模模块：使用建图定位技术对机器人所处的环境建模，并获得智能体的状态信息；

14、数据传输模块：建立iros消息系统中间件，实现智能体和算法模型间信息实时传输、安全加密；通过iros消息系统中间件将智能体状态信息发送到算法模型，并通过iros消息系统中间件的周期性地将模型训练得到的参数传递给智能体；

15、算法模型模块：算法模型根据所有智能体的状态信息进行模型的训练；

16、智能体决策模块：智能体根据获取的模型参数进行实时决策，多个智能体进行协同完成目标任务。

17、本专利技术的优点在于：通过使用iros实现智能体与算法模型间数据的传输，保证了通信的低时延，通过多智能体强化学习算法学习多个智能体间的协作策略。有效的提高了智能体的协作能力，同时也降低了算法模型和智能体间进行通信的时延，提升了系统的性能。

本文档来自技高网...

【技术保护点】

1.一种基于IROS的多智能体强化学习方法，其特征在于，包括：

2.根据权利要求1所述的基于IROS的多智能体强化学习方法，其特征在于，所述建图定位技术采用指纹定位方法。

3.根据权利要求1所述的基于IROS的多智能体强化学习方法，其特征在于，所述通过IROS将智能体的状态信息发送至算法模型具体方式如下：建立IROS消息系统中间件，实现智能体和算法模型间信息实时传输和安全加密；智能体获取到系统的状态信息后，利用IROS消息系统中间件将智能体状态信息发送到算法模型。

4.根据权利要求3所述的基于IROS的多智能体强化学习方法，其特征在于，所述将训练好的模型参数通过IROS周期性的发送给每个智能体具体方式如下：算法模型训练完模型，将训练好的模型参数发送至IROS消息系统中间件，所述IROS消息系统中间件的周期性地将模型训练得到的参数传递给智能体。

5.根据权利要求1所述的基于IROS的多智能体强化学习方法，其特征在于，所述算法模型为基于价值的VDN模型，所述VDN模型根据多个智能体的联合价值函数近似为多个单智能体的价值函数的和进行值函数

6.根据权利要求5所述的基于IROS的多智能体强化学习方法，其特征在于，各个智能体使用相同的参数，所有的智能体使用同一个值函数网络。

7.根据权利要求6所述的基于IROS的多智能体强化学习方法，其特征在于，所述智能体以此进行实时决策，多个智能体进行协同完成目标任务具体方式如下：智能体将实时采集到状态信息送入到值函数网络中生成决策信息，指导智能体进行决策，实现多智能体的协作。

8.一种基于IROS的多智能体强化学习系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如上述权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种基于iros的多智能体强化学习方法，其特征在于，包括：

2.根据权利要求1所述的基于iros的多智能体强化学习方法，其特征在于，所述建图定位技术采用指纹定位方法。

3.根据权利要求1所述的基于iros的多智能体强化学习方法，其特征在于，所述通过iros将智能体的状态信息发送至算法模型具体方式如下：建立iros消息系统中间件，实现智能体和算法模型间信息实时传输和安全加密；智能体获取到系统的状态信息后，利用iros消息系统中间件将智能体状态信息发送到算法模型。

4.根据权利要求3所述的基于iros的多智能体强化学习方法，其特征在于，所述将训练好的模型参数通过iros周期性的发送给每个智能体具体方式如下：算法模型训练完模型，将训练好的模型参数发送至iros消息系统中间件，所述iros消息系统中间件的周期性地将模型训练得到的参数传递给智能体。

5.根据权利要求1所述的基于iros的多智能体强化学习方法，其特征在于，所述算法...

【专利技术属性】
技术研发人员：姬克勇，李朝铭，刘来波，崔欣，刘鹏，赵洪宇，谭雯，
申请(专利权)人：山东新一代信息产业技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人