【技术实现步骤摘要】
一种带有指定性能的无人船数据驱动强化学习控制方法
本专利技术涉及强化学习与水面无人船的轨迹跟踪
,具体而言,尤其涉及一种带有指定性能的无人船数据驱动强化学习控制方法。
技术介绍
如今人工智能技术已经广泛应用于控制领域,特别是无人船系统中。与传统船舶相比无人船可以很好的处理复杂多变的海上环境并且减少人为因素和不确定扰动的影响。强化学习是一个解决最优控制问题的高效的解决方法。它可以解决传统的最优控制问题中求解哈密尔顿-雅克比-贝尔曼方程不易的缺点。Werbos提出一种基于强化学习并使用演员-评论家神经网络的最优控制框架。通过使用演员-评论家神经网络可以逼近成本函数和控制策略,从而满足最优准则且避免了维数灾难问题。在实际运行过程中需要无人船跟踪误差在一定范围内,但现有的技术虽然可以实现无人船的跟踪控制,但是跟踪误差并不能保证在要求的范围里。
技术实现思路
根据上述提出的技术问题,而提供一种带有指定性能的无人船数据驱动强化学习控制方法。本专利技术可以实现执行器和评判器同时更新且误差可以在指定范围内,得到最优 ...
【技术保护点】
1.一种带有指定性能的无人船数据驱动强化学习控制方法,其特征在于,包括如下步骤:/nS1、建立无人水面船数学模型;/nS2、引入指定性能函数;/nS3、设计无人船最优控制器;/nS4、设计评判器和执行器的权重更新率。/n
【技术特征摘要】
1.一种带有指定性能的无人船数据驱动强化学习控制方法,其特征在于,包括如下步骤:
S1、建立无人水面船数学模型;
S2、引入指定性能函数;
S3、设计无人船最优控制器;
S4、设计评判器和执行器的权重更新率。
2.根据权利要求1所述的带有指定性能的无人船数据驱动强化学习控制方法,建立无人水面船数学模型,所述步骤S1具体为:
S11、定义北东坐标系OX0Y0Z0和附体坐标系BXYZ两个坐标系;
S12、对无人水面船进行建模,得到如下船舶运动控制数学模型:
其中,η=[x,y,ψ]T表示北东坐标系下的船舶位置向量,x、y表示无人水面船运动的北东位置,ψ∈[0,2π]表示艏摇角;ν=[u,v,r]T表示附体坐标系下无人水面船运动的速度向量,u、v、r分别表示其纵荡速度、横荡速度、艏摇速度;f(η,v)是完全未知动态向量;τ′=M-1τ,τ=[τu,τv,τr]T表示船舶控制输入向量,τu、τv、τr分别表示纵荡控制力、横荡控制力、艏摇控制力;R(ψ)表示地球坐标系和船体坐标系之间的转换矩阵;M(t)=MT(t)>0表示包含附加质量的惯性矩阵;
S13、设定无人水面船的期望轨迹数学模型如下:
其中,xd=[ηdT,vdT]T,ηd=[xd,yd,ψd]T和νd=[ud,vd,rd]T分别是无人水面船跟踪的
期望位置向量及速度向量。
3.根据权利要求1所述的带有指定性能的无人船数据驱动强化学习控制方法,引入指定性能函数,所述步骤S2具体为:
S21、定义无人船轨迹跟踪误差动态,如下:
其中,ηe=η-ηd,ve=v-vd,G=[03X3,M-1]T;
S22、定义指定性能并令跟踪误差满足下式:
-δi,minμi(t)≤ei(t)≤δi,maxμi(t)
其中,δi,min,δi,max是常数,μi(t)是一个有界递减光滑函数,其函数为
S23、性能函数μi(t)和常数δi,min,δi,max可以决定误差ei(t)的边界,跟踪误差重新定义为:
ei(t)=μi(t)Φi(zi(t))
其中,是转换误差,Φi(zi)是平滑递增函数,其表达式如下:
其反函数为误差函数为
...
【专利技术属性】
技术研发人员:王宁,李堃,高颖,杨忱,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。