一种无人艇集群运行信息智能同步方法及系统技术方案

技术编号:35507781 阅读:20 留言:0更新日期:2022-11-09 14:20
本发明专利技术涉及一种无人艇集群运行信息智能同步方法及系统,所述方法包括:建立无人艇集群的多智能体MDP离散时间模型;根据所述多智能体MDP离散时间模型,确定最优动作策略;按照所述最优动作策略,对多智能体进行一致性控制。最终构建的无人艇集群运行信息智能同步系统以实现集群的协同控制为构建目的,实现对无人艇集群的一致性控制,最终实现无人艇集群中无人艇之间的数据资源共享,有利于最大程度发挥无人艇集群执行群体任务的能力和优势。挥无人艇集群执行群体任务的能力和优势。挥无人艇集群执行群体任务的能力和优势。

【技术实现步骤摘要】
一种无人艇集群运行信息智能同步方法及系统


[0001]本专利技术涉及无人艇
,具体涉及一种无人艇集群运行信息智能同步方法及系统。

技术介绍

[0002]随着无人艇应用场景的不断扩大和执行任务的复杂化,单艘无人艇执行任务已经很难满足任务需求,而往往需要无人艇集群出动,协同完成出航任务。这就需要将无人艇控制系统推广到多无人艇集群。
[0003]目前,无人艇集群控制大多采用预定程序控制或集中式的地面控制,这种场景中无人艇集群的群体优势就无法完全发挥。而构建无人艇集群则是对其控制系统的高阶功能需求,是当前大环境和主流研究趋势下,无人艇应当具备的高级特性,即无人艇控制系统不仅可以完成单独行动任务,也应当可以随时与其他无人艇个体交互信息,进而构成无人艇任务集群。因此,就要求无人艇控制系统能够对集群构建和多艇协作提供技术支撑和理论支持,使得无人艇集群信息共享和协同执行任务成为可能。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种无人艇集群运行信息智能同步方法及系统,本专利技术能够满足在无人艇集群中无人艇之间的数据资源共享,有利于最大程度发挥无人艇集群执行群体任务的能力和优势,同时也可以为无人艇集群体系提供了群体控制和数据共享的技术基础。
[0005]为实现以上目的,本专利技术采用如下技术方案:一种无人艇集群运行信息智能同步方法,包括:
[0006]建立无人艇集群的多智能体MDP离散时间模型;
[0007]根据所述多智能体MDP离散时间模型,确定最优动作策略;
[0008]按照所述最优动作策略,对多智能体进行一致性控制。
[0009]可选的,所述根据所述多智能体MDP离散时间模型,确定最优动作策略,包括:
[0010]采用结合势博弈理论的CQL算法,以智能体获取联合回报期望的最大值作为目标,自主学习迭代动作价值函数,以得到收敛的Q表,Q表为最优动作策略。
[0011]可选的,所述建立无人艇集群的多智能体MDP离散时间模型,包括:
[0012]智能体与环境交互,根据从环境中受到的奖罚来学习规则,以概率转移函数表示交互结果,并通过回报函数表示奖惩;
[0013]集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和,价值函数为:
[0014][0015]式(1)中,为智能体i在离散时间中未来j步的奖励;β为折扣因子;π为智能体的策略,表示基于状态S所选择的动作a;n为集群中智能体个体总数;
[0016]如果一组智能体采用联合策略π1,π2,π3...π
n
,那么动作价值函数Q函数的迭代公式定义为:
[0017][0018]式(2)中,s

为后一时刻状态;a

为后一时刻状态下智能体所选择的动作。
[0019]可选的,集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和,迭代寻找满足多智能体的Q值收敛的期望均衡点。
[0020]可选的,当为多智能体的Q值收敛的期望均衡点时,对应的该组策略是最佳策略,对于智能体i在任意状态s下获得的收敛的Q值表示为:
[0021][0022]将满足对于其他智能体的Q值同样收敛的条件
[0023][0024]可选的,所述迭代寻找满足多智能体的Q值收敛的期望均衡点,包括:
[0025]在CQL算法中应用势博弈理论的方法,将每个智能体不同策略下Q值的改变视为个体效用函数,并将它们映射到一个全局势函数上,使个体效用函数与全局势函数的单调性一致;
[0026]当势函数取得最大值时,所有智能体都达到了各自效用的最大值,得到满足多智能体的Q值收敛的期望均衡点。
[0027]可选的,所述迭代寻找满足多智能体的Q值收敛的期望均衡点,具体包括:
[0028]在拥有n个智能体集合p的一致问题中,每个智能体p
i
∈p同样拥有状态集S
i
及对应的动作集A
i
,那么其一致性个体效用函数U
i
(S,A)通过学习过程中的Q函数定义为:
[0029][0030]对应的全局一致性势函数表示为:
[0031][0032]若智能体p
i
在同一状态下选择动作而不是动作其目标函数的变化满足了势博弈的单调性要求;
[0033]Q值的迭代公式中策略π对应的智能体i的动作,需要满足个体效用函数U
i
(S,A)与全局势函数φ(S,A)最大的条件,该条件为:
[0034][0035]在每次Q值迭代过程中,智能体i只须获取其他智能体的Q表,根据自己的状态S
t
计算个体效用函数值,并选择对应最大值的动作a
t
作为输出执行,进入下一次迭代,这样最终获得的Q值收敛值能够使所有智能体Q值的和最大。
[0036]可选的,每个无人艇视为智能个体节点在本地维护一张存储Q值信息与群体信息的电子信息表,所述电子信息表中记录有本地任务定义的各信息元素项;
[0037]每个智能个体节点不需要获取全局信息,并且每个信息元素项强度也随着时间逐渐减弱;
[0038]当智能个体节点本地传感器感知到某信息元素项的触发状态时,或者一跳范围内的邻居节点发出某信息元素项信号时,该智能个体节点本地会强化该信息元素项的强度,并且按照该信息元素项调节本地节点行为。
[0039]本专利技术还提供了一种无人艇集群运行信息智能同步系统,包括:
[0040]模型建立模块,用于建立无人艇集群的多智能体MDP离散时间模型;
[0041]确定模块,用于根据所述多智能体MDP离散时间模型,确定最优动作策略;
[0042]控制模块,用于按照所述最优动作策略,对多智能体进行一致性控制。
[0043]此外,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前面任一项所述的无人艇集群运行信息智能同步方法。
[0044]本专利技术采用以上技术方案,按照联合行为策略中不同的类型,如无人艇的航速、航向等,划分相应的智能体区块进行分布式控制。最终构建的无人艇集群运行信息智能同步系统以实现集群的协同控制为构建目的,实现对无人艇集群的一致性控制。所述一致性的内涵是无人艇控制系统中所有的智能体可以通过某些控制规则智能地相互传递以达到信息同步共享,随着时间的推移,智能体的各种状态值可以逐渐变得一致,最终实现无人艇集群中无人艇之间的数据资源共享,该专利技术有利于最大程度发挥无人艇集群执行群体任务的能力和优势。
附图说明
[0045]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无人艇集群运行信息智能同步方法,其特征在于,包括:建立无人艇集群的多智能体MDP离散时间模型;根据所述多智能体MDP离散时间模型,确定最优动作策略;按照所述最优动作策略,对多智能体进行一致性控制。2.根据权利要求1所述的方法,其特征在于,所述根据所述多智能体MDP离散时间模型,确定最优动作策略,包括:采用结合势博弈理论的CQL算法,以智能体获取联合回报期望的最大值作为目标,自主学习迭代动作价值函数,以得到收敛的Q表,Q表为最优动作策略。3.根据权利要求2所述的方法,其特征在于,所述建立无人艇集群的多智能体MDP离散时间模型,包括:智能体与环境交互,根据从环境中受到的奖罚来学习规则,以概率转移函数表示交互结果,并通过回报函数表示奖惩;集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和,价值函数为:式(1)中,为智能体i在离散时间中未来j步的奖励;β为折扣因子;π为智能体的策略,表示基于状态S所选择的动作a;n为集群中智能体个体总数;如果一组智能体采用联合策略π1,π2,π3...π
n
,那么动作价值函数Q函数的迭代公式定义为:式(2)中,s

为后一时刻状态;a

为后一时刻状态下智能体所选择的动作。4.根据权利要求3所述的方法,其特征在于,集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和,迭代寻找满足多智能体的Q值收敛的期望均衡点。5.根据权利要求4所述的方法,其特征在于,当为多智能体的Q值收敛的期望均衡点时,对应的该组策略是最佳策略,对于智能体i在任意状态s下获得的收敛的Q值表示为:将满足对于其他智能体的Q值同样收敛的条件
6.根据权利要求5所述的方法,其特征在于,所述迭代寻找满足多智能体的Q值收敛的期望均衡点,包括:在CQL算法中应用势博弈理论的方法,将每个智能体不同策略下Q值的改变视为个体效用函数,并将它们映射到一个全局势函数上,使个体效用函数与全局势函数的单调性一致;当势函数取得最大值时,所有智能体都达到了各自效用的最大值,得到满足多智能体的Q值收敛的...

【专利技术属性】
技术研发人员:韩玮王千一曾江峰谢杨柳张馗陈骁陈卓郭晓晔马向峰梁旭王伟董钉胥凤驰李哲骆福宇王一帆刘如磊王子帅宋胜男吴与伦董洁琳许埔宁王伟蒙
申请(专利权)人:中国船舶集团有限公司系统工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1