【技术实现步骤摘要】
本专利技术属于无人艇航迹跟踪控制领域,具体涉及一种基于深度强化学习sac算法的无人艇航迹跟踪pd或pid控制参数匹配方法。
技术介绍
1、在无人艇航迹跟踪领域pd与pid控制相比于其他的控制应用范围广,调参较容易,但pd与pid控制参数整定较复杂,传统pd与pid控制器的控制参数无法随无人艇航行状态变化自适应调整,且固定参数的pid控制器存在控制精度差和超调量大等问题,导致无人艇在航迹跟踪时抗干扰性差。
技术实现思路
1、本专利技术的目的在于提供一种水面无人艇航迹跟踪控制参数匹配的方法,它采用深度强化学习算法训练出pid或pd参数匹配器,然后将输出的pid或pd参数作为水面无人艇航迹跟踪pid或pd控制器的输入,解决了控制参数随水面无人艇航行变化自适应调整的问题,同时提高了控制的鲁棒性,即在干扰情况下仍可快速视线轨迹跟踪。本专利技术提出的方法以神经网络逼近的形式替代数学推导,并且由程序自动训练参数匹配器,不需要人工干预。
2、根据实施例的第一方面,提供一种无人艇航迹跟踪控制参数
...【技术保护点】
1.一种无人艇航迹跟踪控制参数匹配方法,其特征在于,该方法是采用SAC算法训练出的智能体输出PID或PD参数作为无人艇航迹跟踪PID或PD控制器的输入,
2.根据权利要求1所述的方法,其特征在于,SAC算法的网络结构包括:actor网络;VCritic网络,分别是:1个V Critic网络和1个Target V Critic网络;Q Critic网络,分别是:Q1 Critic网络和Q2 Critic网络。
3.根据权利要求2所述的方法,其特征在于,智能体的训练方法包括:
4.根据权利要求3所述的方法,其特征在于,计算Target
...【技术特征摘要】
1.一种无人艇航迹跟踪控制参数匹配方法,其特征在于,该方法是采用sac算法训练出的智能体输出pid或pd参数作为无人艇航迹跟踪pid或pd控制器的输入,
2.根据权利要求1所述的方法,其特征在于,sac算法的网络结构包括:actor网络;vcritic网络,分别是:1个v critic网络和1个target v critic网络;q critic网络,分别是:q1 critic网络和q2 critic网络。
3.根据权利要求2所述的方法,其特征在于,智能体的训练方法包括:
4.根据权利要求3所述的方法,其特征在于,计算target v critic网络时,取两个qcritic网络输出的较小q值:
5.根据权利要求4所述的方法,其特征在于,拿从经验池r中采出的数据(st,at,rt,st+1)进行q critic网络的更新;用作为状态st的真实价值估计,即t时刻奖励rt加上折扣因子γ和t+1时刻的状态价值的乘积,用实际采用的动作a的q(st,a)值作为状态的st预测价值估计,使用mseloss作为loss函数,对q critic网络进行训练,损失函数...
【专利技术属性】
技术研发人员:宋利飞,许传毅,郝乐,徐凯凯,史晓骞,孙昊,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。