【技术实现步骤摘要】
一种基于协同增强学习的多智能体区域搜索方法
本专利技术涉及多智能体区域搜索,特别是涉及一种基于协同增强学习的多智能体区域搜索方法。
技术介绍
群集现象是自然界中极为常见的一种现象,随着近些年来的人工智能的兴起,智能控制领域成为了热门研究领域,并且在无人机、无人车或移动机器人等智能体方面取得了重大的进步。单智能体技术的逐渐成熟推动着智能体系统向集群化转变,Flocking集群控制算法被广泛应用于无人机搜索、侦察和打击等任务。面对日益复杂的作战环境与多任务需求。Q-learning是一种典型的增强学习算法,它将所学习到的经验转换成Q值表,根据Q值表可以选择最佳策略。在智能体集群的遍历过程中,通过Q-learning来对多智能体搜索系统中的γ点进行规划,并在Q-learning算法学习完成后,可得到最佳的γ点的规划策略,从而完成对目标区域的快速遍历。由于传统的Q-learning算法是一种独立学习方法,在学习过程中不需要借鉴其邻居的历史经验,这样造成多智能体系统对同一状态行为的经验进行多次学习,大大降低了系统的学习
【技术保护点】
1.一种基于协同增强学习的多智能体区域搜索方法,其特征在于:包括以下步骤:/nS1.建立集群系统的运动模型;/nS2.定义γ信息地图及集群信息地图融合方式;/nS3.定义增强学习训练所需要的状态空间和行为空间;/nS4.根据状态空间和行为空间定义交互增强学习训练方法;/nS5.获取训练得到的Q值表,根据运动模型进行区域搜索,并根据Q值表确定下一时刻的位置。/n
【技术特征摘要】
1.一种基于协同增强学习的多智能体区域搜索方法,其特征在于:包括以下步骤:
S1.建立集群系统的运动模型;
S2.定义γ信息地图及集群信息地图融合方式;
S3.定义增强学习训练所需要的状态空间和行为空间;
S4.根据状态空间和行为空间定义交互增强学习训练方法;
S5.获取训练得到的Q值表,根据运动模型进行区域搜索,并根据Q值表确定下一时刻的位置。
2.根据权利要求1所述的一种基于协同增强学习的多智能体区域搜索方法,其特征在于:所述步骤S1包括以下子步骤:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i个智能体定义为agenti,其动力学模型表述成下列式子:
其中pi为智能体agenti的位置,vi为智能体agenti的速度,ui为智能体agenti的加速度,ui为集群智能体的控制输入量;
在搜索过程中,集群每个agent的控制输入量表示为:
为集群智能体相互避撞的控制输入量,为集群智能体向期望位置移动控制量;
csα为正常数,定义p-agenti与p-agentj之间的势场力如下:
其中z为输入量,pi为集群智能体i的位置;
dα=||d||σ
其中rα集群智能体之间通信距离,σ1,a,b,c为自定义参数;
其中,h,l为常数函数的设计保证了势场函数的平滑,为了保证范数,微定义σ范数:
式中,∈为自定义参数;
集群智能体向期望位置移动控制量如下式:
式中,为PID算法中的比例与微分控制参数,vi为agenti的速度,pγ为agenti下一时刻的期望位置。
3.根据权利要求1所述的一种基于协同增强学习的多智能体区域搜索方法,其特征在于:所述步骤S2包括以下子步骤:
假设遍历区域为m×n的矩形区域,将待搜索区域量化为k*l个矩阵的γ-信息地图,每一个量化后的矩阵对应为一个γ点,将区域的完整搜索转换为信息地图中γ点的完全遍历,这些γ点构成了agenti的一个γ信息地图集合
mi(γ)={γx,y},x=1,2....k,y=1,2....l;
其中k和l由下式获取:
rs为自定义参数,表示agenti的感知半径;
获取集群中所有智能体的γ信息地图{m1(γx,y),m2(γx,y)......mp(γx,y)},若agenti遍历γ点时,则该γ点的信息mi(γx,y)=1,否则mi(γx,y)=0;agent1、agent2......agentp建立通信,融合自身γ信息地图与其邻居的γ信息地图,融合公式如下:
其中mi(γx,y):是智能体i的信γ息地图,ms(γx,y)是集群的所有γ信息地图,V是集群智能体的集合。
4.根据权利要求1所述的一种基于协同增强学习的多智能体区域搜索方法,其特征在于...
【专利技术属性】
技术研发人员:张瑛,肖剑,黄治宇,薛玉玺,吴磊,靳一丹,吴冰航,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。