【技术实现步骤摘要】
基于分布式强化学习的无人集群协同群智目标搜索方法
[0001]本专利技术涉及强化学习与群体智能领域,尤其涉及一种基于分布式强化学习的无人集群协同群智目标搜索方法。
技术介绍
[0002]在利用智能体进行搜索的这个课题上,早期的多数研究主要是针对静态环境下单智能体的搜索,而不考虑动态环境中多智能体的协同搜索。传统的方法通常是采用随机搜索和规则搜索等。但使用随机搜索需要对环境进行提前了解,然而在现实生活中我们往往并不了解搜索区域的实际信息。而使用规则搜索模式进行搜索,搜索轨迹固定,此时若目标位置是随时变换的,也会大大降低搜索效率。同时,对于动态环境,单个智能体对环境的感知,难以作用于全部智能体对整体环境的感知,环境的动态变化,对于多智能体的群智协同造成严重干扰,导致智能体之间协同能力的降低,大大降低了全局目标搜索的效率。
技术实现思路
[0003]针对上述问题,本专利技术提供了一种基于分布式强化学习的无人集群协同群智目标搜索方法,获取无人集群中各智能体的局部状态特征,同时将预置的先验知识根据局部状态特征进行深度转换,分别计算无人集群基于预置特征匹配的权重、基于置信度的权重、基于环境动态性的权重和基于距离成本的权重,融合生成无人集群的全局状态特征;对无人集群进行分布式强化学习,完成协同群智搜索,并根据搜索结果完成无人集群智能体数量的更新,降低搜索成本。
[0004]一种基于分布式强化学习的无人集群协同群智目标搜索方法,具体步骤如下:
[0005]步骤1:分别获取先验知识和无人集群当前智能体的 ...
【技术保护点】
【技术特征摘要】
1.基于分布式强化学习的无人集群协同群智目标搜索方法,其特征在于,具体步骤如下:步骤1:分别获取先验知识和无人集群当前智能体的局部状态特征,并将先验知识转换为与局部状态特征同深度下的特征;步骤2:获取无人集群中影响当前智能体的n个智能体的局部状态特征,融合生成当前智能体的全局状态特征;步骤3:当前智能体根据当前全局状态特征,决策出当前全局状态特征下的最佳全局动作,进行目标搜索任务,并获取当前智能体的下一全局状态特征和动作奖励;步骤4:重复步骤1到步骤3,对无人集群中各智能体进行分布式强化学习并决策出各智能体每个全局状态特征下的最佳全局动作,进行目标搜索任务。2.根据权利要求1所述的基于分布式强化学习的无人集群协同群智目标搜索方法,其特征在于,步骤1中,先验知识s
target
具体表示如下:s
target
=[D
target LID
target B
target
]其中D
target
为预置目标的深度信息,LID
target
为预置目标的激光雷达在D
target
深度下的检测特征,B
target
为预置目标的视觉相机在D
target
深度下的检测特征;当前智能体的局部状态特征s0具体表示如下:s0=[s
0,action s
0,out
]=[[x
0 y
0 θ
0 d0][p
0 lid
0 b0]]其中s
0,action
表示当前智能体的局部动作状态特征,s
0,out
表示当前智能体的局部环境状态特征,x0,y0表示当前智能体的坐标位置,θ0表示当前智能体的朝向,d0表示当前智能体的深度特征,p0表示当前智能体搜索到目标的置信度,lid0为当前智能体的激光雷达在d0深度下的检测特征,b0为当前智能体的视觉相机在d0深度下的检测特征;将先验知识s
target
转换为与局部状态特征同深度下的特征s
t
'
arget
,具体表示如下:其中d
target
为预置目标的深度信息,lid
target
为预置目标的激光雷达在d0深度下的检测特征,b
target
为预置目标的视觉相机在d0深度下的检测特征。3.根据权利要求1所述的基于分布式强化学习的无人集群协同群智目标搜索方法,其特征在于,步骤2中影响当前智能体的n个智能体的局部状态特征,具体表示如下:s
j
=[s
j,action s
j,out
]=[[x
j y
j θ
j d
j
][p
j lid
j b
j
]],j∈(1,n)其中s
j
为影响当前智能体的第j个智能体的局部状态特征,s
j,action
表示影响当前智能体的第j个智能体的局部动作状态特征,s
j,out
表示影响当前智能体的第j个智能体的局部环境状态特征,x
j
,y
j
表示影响当前智能体的第j个智能体的坐标位置,θ
j
表示影响当前智能体的第j个智能体的朝向,d
j
表示影响当前智能体的第j个智能体的深度特征,p
j
表示影响当前智能体的第j个智能体搜索到目标的置信度,lid
j
为影响当前智能体的第j个智能体的激光雷达在d
j
深度下的检测特征,b
j
为影响当前智能体的第j个智能体的视觉相机在d
j
深度下的检测特征。4.根据权利要求3所述的基于分布式强化学习的无人集群协同群智目标搜索方法,其特征在于,当前智能体的全局状态特征S0,具体表示如下:
S0=[S
0,action S
0,out
]=[[x
0 y
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。