System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 利用特征嵌入及课程学习思想进行无人艇集群围捕的方法技术_技高网
当前位置: 首页 > 专利查询>上海大学专利>正文

利用特征嵌入及课程学习思想进行无人艇集群围捕的方法技术

技术编号:40708744 阅读:8 留言:0更新日期:2024-03-22 11:09
本发明专利技术公开一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,仿真环境构建,采用PettingZoo开源框架建立仿真环境,通过该框架确定系统中无人艇的数量,用于进行追逃围捕任务;编写逃逸无人艇的行为规则,搭建深度强化学习模型;利用深度强化学习对无人艇集群进行训练;为了提高模型的鲁棒性,应对执行任务过程时无人艇的失效影响整体任务的进行,对状态空间使用特征嵌入技术实现伸缩不变性。利用课程学习思想设置逃逸半径,在训练阶段应用课程学习思想,初始设定逃逸无人艇静止,逃逸速度为零,围捕半径条件设置较大,随后逐步提高逃逸速度、缩小围捕半径,使得无人艇集群更好地适应真实任务场景。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体为一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法


技术介绍

1、无人艇作为一种以遥控或自主航行的智能化,多用途的无人运载平台,是国家海洋科技实力的重要体现。无人艇具备在恶劣的环境中代替人类执行危险、耗时费力的工作任务的能力,在军事或者民事领域具备广泛的应用场景。但单无人艇自身的能力有限,面对复杂的环境,多样的任务,无人艇集群成为了发展趋势之一,也是信息化,智能化的必然结果。多无人艇不仅是数量的扩充和功能的简单相加,而是有机地集成到系统之中,高度融合,整体联动。目前,无人艇集群围捕受到越来越多的关注,如何实现无人艇集群围捕具备现实价值。

2、目前关于多智能体强化学习的研究多聚焦于陆地环境或空中环境,而无人艇自身的特性与陆地机器人和空中无人机相差去远。对于传统的多智能体深度强化模型,通常是利用mpe(multiagent particle environment)进行训练,但这种模型的不足之处在于:1)不能根据自身需求自定义动作值的大小2)奖励函数也是由mpe给出的,不能调整奖励函数,实现自身需求。

3、mappo算法是一种深度强化学习算法,是ppo算法应用在多智能体强化学习的一种变体算法。ppo算法是基于actor-critic框架的策略梯度优化算法,通过梯度截断的方法解决更新差异过大的问题。mappo算法作为ppo算法在多智能体的变体,其也是actor-critic算法,其不同之处在于集中化训练,分布式执行(centralized training withdecentralized execution,ctde)。即critic网络学习的是一个中心价值函数。所有智能体共享该网络,在训练结束之后,各智能体基于自身的观察状态,输入至自身的actor网络生成的动作函数采取最优动作。


技术实现思路

1、为了解决传统的多智能体深度强化模型的缺点,实现在复杂环境下的无人艇集群围捕任务,本专利技术提出一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,通过pettingzoo框架构造了一个仿真环境,然后通过mappo算法训练无人艇集群模型。

2、本专利技术具体通过以下技术方案予以实现:

3、一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,包括

4、s1)仿真环境构建:采用pettingzoo开源框架建立仿真环境,通过该框架确定系统中无人艇的数量,用于进行追逃围捕任务;

5、s2)深度强化学习训练:利用深度强化学习对无人艇集群进行训练,编写逃逸无人艇的行为规则,使其能够在不同情境下适应围捕任务;

6、s3)特征嵌入思想:直接将多无人艇观察信息串联为一维向量,无法灵活处理输入维度动态变化的场景,为提高模型鲁棒性,对无人艇执行任务时可能会遇到的个别无人艇失效的情况,对状态空间使用特征嵌入技术实现伸缩不变性;

7、s4)课程学习思想:在训练阶段应用课程学习思想,初始设定逃逸无人艇静止,逃逸速度为零,围捕半径条件设置较大,随后逐步提高逃逸速度、缩小围捕半径,使得无人艇集群更好地适应真实任务场景。

8、本专利技术首先采用pettingzoo开源框架,构建了一个仿真环境,该环境模拟了实际海洋场景。在仿真环境中,考虑到实际任务中可能存在的障碍物,本专利技术在环境中添加了障碍物,并通过设定靠近障碍物的无人艇获得负奖励的方式,模拟了实际任务中需要避免的危险情况。每轮训练开始时,无人艇的初始位置被设定,为模型提供了不同的起始条件,增加了训练的多样性。

9、针对无人艇集群围捕任务,本专利技术采用深度强化学习进行训练。在训练阶段,通过mappo算法,对无人艇集群进行训练。逃逸无人艇的行为通过给定规则采取行动,根据其他无人艇的位置和方向,以及围捕半径等因素,逃逸无人艇动态调整其逃逸速度和方向。

10、为了灵活处理输入维度可能存在的动态变换的问题,本专利技术引入了特征嵌入思想。利用特征嵌入思想,对输入的状态空间进行特征嵌入,实现伸缩不变性。具体而言,首先将各无人艇的观察输入至权重一致的前馈网络,得到各无人艇的观察向量,然后对观察向量求均值,再拼接环境的本地特征,得到与无人艇数量无关的状态输入特征。

11、其中,无人艇的观察输入为o1,o2,...,on,前馈网络f为

12、f=h(woi+b)

13、其中,w和b为权重和偏执,h为激活函数。

14、然后对所有的特征向量f求均值,得到与无人艇数量无关的特征维度向量fmean

15、

16、最后,再拼接上无人艇所处的本地特征,即得到最终网络需要的状态输入fstate:

17、fstate=fmean+oenv

18、其中,oenv为无人艇所处的本地特征。

19、为了提高模型的鲁棒性和适应性,本专利技术引入了课程学习思想。在训练的早期阶段,逃逸无人艇被设定为静止在一个地方,逃逸速度为零,围捕半径条件设置较大,以便让无人艇集群在探索阶段完成任务。随着训练的进行,逐渐提高逃逸无人艇的速度并缩小围捕半径条件,使得无人艇集群更好地适应真实任务场景。

20、在课程学习的过程中,本专利技术采用线性难度的参数修改器。动态调整围捕半径和逃逸无人艇速度,以根据当前训练步数和动态的环境条件调整训练难度。这样的动态调整机制有助于模型更灵活地适应不同的任务场景。

21、其中,无人艇的围捕半径darr为:

22、

23、逃逸无人艇的速度vesc表达式为:

24、

25、其中,αi为比例系数,st为当前训练步数,stotal为定义的一个episode中的最大时间步数,cp为训练比例,为逃逸无人艇与追击无人艇的距离平均值。

26、本专利技术设计了一套细致的奖励函数,以引导无人艇集群学习有效的围捕策略。奖励函数考虑了无人艇与逃逸无人艇之间的距离、方向、与其他无人艇之间的关系以及与障碍物的交互,从而使得无人艇集群能够更好地执行围捕任务。

27、其中,奖励值ri为:

28、

29、rst=rdisforesc+rdisangforpur+rdisforobs+rstep

30、rdisforesc=-k0d0

31、

32、

33、rstep=-k4

34、其中,ki为比例系数,di为相应无人艇的距离,δ为距离的标准差。

35、在深度强化学习训练中,本专利技术采用了mappo算法,该算法通过经验回放池进行参数更新,以提高模型的训练效率和稳定性。通过梯度参数裁剪,解决了策略梯度更新困难,步长难以确定的问题。mappo算法能够有效地处理多智能体协同训练的问题,确保无人艇集群在训练过程中取得更好的性能。

36、与其他技术相比,本专利技术实现的有益效果包括以下几点:

37、1.本专利技术采用petting本文档来自技高网...

【技术保护点】

1.一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:包括

2.根据权利要求1所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:所述步骤S1)中在PettingZoo开源框架下构建仿真环境,该环境包含障碍物,靠近障碍物的无人艇将受到负奖励,每轮训练开始时,无人艇的初始位置在仿真环境中设置,而在执行每个动作后,设置相应的奖励函数以引导无人艇学习。

3.根据权利要求1所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:所述步骤S2)中利用深度强化学习训练无人艇集群包括,使用MAPPO算法对无人艇集群进行深度强化学习训练,逃逸无人艇根据其他无人艇的距离和方向进行加权求和,并以一定速度反向逃离,以模拟真实情境。

4.根据权利要求1所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:所述步骤S3)中利用特征嵌入思想,对输入的状态空间进行特征嵌入,实现伸缩不变性;具体而言,首先将各无人艇的观察输入权重一致的前馈网络,得到各无人艇的观察向量,然后对观察向量求均值,在拼接环境的本地特征,得到与无人艇数量无关的状态输入特征。

5.根据权利要求1所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:所述步骤S4)中利用课程学习思想训练无人艇集群模型包括,引入线性难度的参数修改器,并根据当前训练步数动态调整围捕半径和逃逸无人艇速度,参数修改器输出的实际围捕半径和逃逸无人艇速度在训练比例阈值内根据指数衰减进行调整,以提高训练的鲁棒性;

6.根据权利要求2所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:所述奖励函数,设置为追踪无人艇无人艇与逃逸无人艇的距离所确定的奖励,追踪无人艇与追踪无人艇的距离及方向的奖励,追踪无人艇与障碍物记录的奖励,花费时间步的奖励,其中,奖励为r,

7.根据权利要求3所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:采用MAPPO算法训练无人艇集群,具体而言,训练阶段,环境输出全局状态st,奖励函数R和环境Env给出各无人艇获取的奖励rt和观测ot,各无人艇根据策略网络给出动作at,得到更新后的全局状态st+1,据此,完成一次时间步的迭代循环,并将中间状态信息[st,ot,at,rt,st+1]存入至经验回放池中,待该epiosde达到终止条件时,进行策略网络和价值网络的参数更新。

8.根据权利要求4所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:

...

【技术特征摘要】

1.一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:包括

2.根据权利要求1所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:所述步骤s1)中在pettingzoo开源框架下构建仿真环境,该环境包含障碍物,靠近障碍物的无人艇将受到负奖励,每轮训练开始时,无人艇的初始位置在仿真环境中设置,而在执行每个动作后,设置相应的奖励函数以引导无人艇学习。

3.根据权利要求1所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:所述步骤s2)中利用深度强化学习训练无人艇集群包括,使用mappo算法对无人艇集群进行深度强化学习训练,逃逸无人艇根据其他无人艇的距离和方向进行加权求和,并以一定速度反向逃离,以模拟真实情境。

4.根据权利要求1所述的利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,其特征在于:所述步骤s3)中利用特征嵌入思想,对输入的状态空间进行特征嵌入,实现伸缩不变性;具体而言,首先将各无人艇的观察输入权重一致的前馈网络,得到各无人艇的观察向量,然后对观察向量求均值,在拼接环境的本地特征,得到与无人艇数量无关的状态输入特征。

5.根据权利要求1所述的利用特征嵌入及课程学习思想进行无人艇集群围...

【专利技术属性】
技术研发人员:郑建勇刘凯王肖郄彤彤刘燕燕覃智科
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1