【技术实现步骤摘要】
一种多无人艇避碰决策方法
[0001]本专利技术属于多无人艇自主决策方法,涉及无人艇技术,路径规划算法领域,避碰算法领域以及多无人艇控制方法等,具体涉及一种多无人艇避碰决策方法。
技术介绍
[0002]近年来,对资源的需求促使各国加大对海洋的勘探和利用,无人驾驶技术发展为海洋勘探和利用提供了技术保障。无人艇作为新型海洋装备,在海洋资源勘探和利用方面广泛应用。对于海洋勘探开发任务,单条无人艇很难完美完成,无人艇集群可以有效地完成海洋监测、海上救援和辅助停泊等任务。无人艇是无人驾驶技术研究的新领域,海洋环境相比陆地环境更加复杂,多无人艇对海上交通工程中的海上安全和环境保护提出了挑战,因此对无人艇航行控制与航行安全提出了更高要求。在海上避碰规则(COLREGs)下保证多无人艇的海上安全航行,实现多无人艇间自主避碰具有重要战略意义。
[0003]多无人艇研究中,控制方法主要两种形式:1)集中式控制方法,在一个集中式系统中,控制器可以灵活地协调在同一工作空间中的多条无人艇,群体环境信息已知的条件下避免群体内部发生碰撞。该方法可 ...
【技术保护点】
【技术特征摘要】
1.一种多无人艇避碰决策方法,其特征在于,包括如下步骤:步骤1、构建决策模型;步骤2、载入未知环境,训练决策模型;步骤3、设计测试环境,提取当前可监测环境信息;步骤4、环境感知;步骤5、数据处理;步骤6、风险评估,检查当前无人艇风险状态;步骤7、根据步骤6,针对风险执行相应决策行为;步骤8、根据步骤7,计算奖励值;步骤9、判断是否实现避碰,返回奖励值与结果。2.根据权利要求1所述的一种多无人艇避碰决策方法,其特征在于,步骤1中,决策模型采用近端策略优化算法和相互速度障碍算法构建;近端策略优化算法算法首先从初始化神经网络开始,设置两个actor网络,结构为两层,每层256个神经元,其中网络π采样,对旧网络π
old
更新;在训练循环期间,网络π接收当前环境信息,根据信息选择动作更新状态s'并返回奖励r;两个actor网络通过自适应KL惩罚;critic网络结构为两层,每层256个神经元,通过s',r评价动作好坏,对网络π更新;相互速度障碍算法是基于速度的避碰算法,将周围信息用向量表示,通过移动速度和方向评估碰撞风险。3.根据权利要求2所述的一种多无人艇避碰决策方法,其特征在于,步骤2中,需设计未知环境,近端策略优化算法优化目标是极大化奖励的期望,在计算期望时,采样方法选择重要性采样;重要性采样是实现用在参数为θ'网络下收集数据对θ网络更新的关键,用两个分布函数p,q来描述两条无人艇;计算期望公式如下:其中f(x)是一个采样函数,x是p(x),q(x)的采样值,p=p(x),q=q(x),理论上q可以是任何分布,但在实际中p和q相近,从两个分布方差来看:Var
x~p
[f(x)]=E
x~p
[f(x)2]
‑
(E
x~p
[f(x)])2在p(x)和q(x)分布下采样数据达到1000以上时,p(x)=q(x);利用重要性采样方法,进行在线策略到离线策略的转换;在策略梯度中,对期望的求解:转换为:
其中R(τ)是奖励值,τ是采样轨迹,p
θ
,p
θ
’
是概率值,是修正项;应用到实际环境中,进行梯度更新:其中A
θ
(s
t
,a
t
)是评估函数,π
θ
,π
θ'
是两个分布对应的策略,p
θ
,p
θ'
是概率值,n表示第n条采样,用来评价在t时刻状态s下选取动作a的好坏;新优化函数:由上式得到近端策略优化算法定义式:其中β为权重系数,θ'表示示范参数,θ表示需要优化的参数,KL散度的作用是用来描述θ,θ'之间的差异性度量,差异性指参数对应的行为(actor)的差异;βKL(θ,θ')为限制条件;相互速度障碍假设对方使用相同的策略,而非保持匀速运动,使用下式描述:相互速度障碍不是为其他无人艇速度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。