一种基于宽度学习的船舶运动无模型自适应最优控制方法技术

技术编号:21377013 阅读:21 留言:0更新日期:2019-06-15 13:08
本发明专利技术公开了一种基于宽度学习的船舶运动无模型自适应最优控制方法,包括以下步骤:S1:建立包含输入层和输出层的宽度学习模型,S2:根据控制目标构建船舶航向的最优控制目标函数;S3:根据被控船舶当前状态利用训练好的宽度学习模型获得船舶下一时刻航行状态的估计;S4:构建评价网和执行网的三层BP神经网络结构;S5:利用评价网权值更新公式进行权值更新;S6:利用执行网权值更新公式更新执行网的连接权重从而获得船舶当前时刻控制率S7:将更新后的船舶状态与当前控制率输入到宽度学习模型中重复S3‑S7,在此过程中评价网和执行网权值收敛得到船舶航向的近似最优控制。

【技术实现步骤摘要】
一种基于宽度学习的船舶运动无模型自适应最优控制方法
本专利技术属于自适应最优控制
,尤其涉及一种基于宽度学习的船舶运动无模型自适应最优控制方法。
技术介绍
船舶在航行过程中由于受到风、浪、流等外部扰动以及设备磨损等因素的影响,往往其运动模型一种基于宽度学习的船舶运动无模型自适应最优控制方法并不是可靠的。这时,如何利用被控船舶的运行数据进行系统的在线辨识以及无模型控制就成了人们所关注的问题。传统的自适应动态规划方法在解决无模型船舶航向控制问题时,往往采用诸如神经网络、模糊逻辑系统等函数逼近结构来进行船舶未知模型的在线辨识过程。在线辨识过程通常需要进行计算量大、耗时长的迭代过程,这一过程增加了自适应动态规划算法的计算量以及计算时间,使得自适应动态规划算法在实际应用时,存在着计算量大、计算时间长、实时性不足等问题。
技术实现思路
根据现有技术存在的问题,本专利技术公开了一种基于宽度学习的船舶运动无模型自适应最优控制方法,具体包括以下步骤:S1:建立包含输入层和输出层的宽度学习模型,将被控船舶的航行状态信息输入至宽度学习模型进行模型的训练,将航行状态信息生成特征节点和增强节点并将三者共同作为宽度学习模型的输入层,其中航行状态信息至少包括航向、转艏角速度和舵角信息;S2:根据控制目标构建船舶航向的最优控制目标函数;S3:根据被控船舶当前状态利用训练好的宽度学习模型获得船舶下一时刻航行状态的估计;S4:构建评价网和执行网的三层BP神经网络结构;S5:将船舶当前状态和估计状态以及最优控制目标函数的相关参数输入至评价网中,利用评价网权值更新公式进行权值更新;S6:将船舶当前状态、估计状态、最优控制目标函数的相关参数和评价网输出值输入至执行网中,利用执行网权值更新公式更新执行网的连接权重从而获得船舶当前时刻控制率,根据当前时刻控制率更新船舶航行状态;S7:将更新后的船舶状态与当前控制率输入到宽度学习模型中重复S3-S7,在此过程中评价网和执行网权值收敛得到船舶航向的近似最优控制。进一步的,S1中具体采用如下方式:S11:建立包含输入层和输出层结构的宽度学习模型,其中输入层包括特征节点和增强节点,设特征节点共有N2组,每组N1个;增强节点共有N3个;S12:将船舶的航行状态信息转换为M×N的信息矩阵,其中M为状态信息种类数,N为采样数量;S13:将舵角信息转换成N×1的宽度学习模型的输出层;S13:将信息矩阵输入到宽度学习模型,生成N×(N1×N2+N3)的宽度学习模型的输入层;S14:将输入层与输出层相连接,并通过伪逆运算求出连接权重矩阵。进一步的,S2中具体采用如下方式:S21:定义离散系统无限时域上的最优控制目标函数如下:其中,J(xk)为最优控制目标函数,xn表示第n时刻的船舶状态,un表示第n时刻船舶控制器舵角状态,Q(xn)是xn的函数,R是半正定的系数矩阵,最小化J(xk)即为最优控制的控制目标;S22:根据贝尔曼最优性原理将S21中构建的目标函数转化为离散系统的哈密顿-雅克比-贝尔曼DTHJB方程,该方程的相关参数将用于评价网与执行网的权值更新公式中。由于采用了上述技术方案,本专利技术提供的一种基于宽度学习的船舶运动无模型自适应最优控制方法,该方法针对模型未知的船舶运动控制问题,在传统自适应动态规划算法的基础上加以改进,将宽度学习模型引入到自适应动态规划算法结构中的模型网中,解决传统自适应动态规划算法建模过程的时间长、计算量大等问题,有效降低了算法的计算量,增强算法的实时性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术方法的流程图;图2为本专利技术中宽度学习模型的结构示意图。具体实施方式为使本专利技术的技术方案和优点更加清楚,下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚完整的描述:如图1和图2所示的一种基于宽度学习的船舶运动无模型自适应最优控制方法,具体包括以下步骤:A建立宽度学习模型首先,采集被控船舶的真实航行状态数据,航行状态数据包括被控船舶的状态变量(例如航向、转艏角速度等)与控制器输出信息即舵角信息,并将其用于宽度学习模型的建立与训练。用采集到的数据生成维度为(M+N)×P的矩阵X,其中M为被控对象状态变量数,N为控制器数量,P为采集到的数据的数量。其次,利用采集到的数据形成标签数据集矩阵Y,该矩阵的维度为M×P。该矩阵的每一行数据均与X矩阵的数据一一对应,代表X矩阵中的状态变量在下一时刻的状态。本专利技术中所使用的宽度学习模型共有两层结构:输入层和输出层。提取被控对象实时数据生成特征节点与增强节点共同作为宽度学习系统的输入层。特征节点与增强节点的生成方式如下:特征节点Zi表示第i个特征节点,生成n个特征节点的公式如下:Zi=fi(φi(XWei+βi)),i=1,…,n(1)其中,Wei与βi分别表示权重系数与偏置项,二者均为随机产生;fi与φi分别表示标准化公式与传递函数。为了方便起见,将n个特征节点表示为Zn=[Z1...Zn]。增强节点Hm表示第m个增强节点,生成增强节点的公式如下:Hm=ξm(ZnWhm+βhm)(2)其中,Whm与βhm分别表示随机产生的权重系数与偏置项;ξm表示传递函数,例如sigmoid函数。为了方便起见,将m个增强节点表示为Hm=[H1...Hm]。将宽度学习模型的输入层记作A,A通过将特征节点与增强节点拼接在一起得到,即此时,整个宽度学习模型可以表示为Y=A×W(3)其中,Y表示宽度学习系统的输出,W表示宽度学习系统的连接权重。由上面的步骤可以看出,宽度学习模型采用单层结构,故连接权重W可以通过伪逆运算直接求得,免去了传统神经网络求解连接权重时的迭代过程。这一过程如下所示:W=(AT×A+In+m×c)-1×AT×Y(4)其中,c代表正则化参数,从此公式中,我们可以看出宽度学习系统的连接权重的求得是不需要任何迭代过程的。B.基于宽度学习模型的自适应动态规划最优控制算法过程:B1.构建最优控制的目标函数,即离散系统的Hamilton-Jacobi-Bellman(DTHJB)方程,控制目标转化为最小化此方程。B2.根据船舶的当前状态xk利用训练好的宽度学习模型得到下一时刻系统状态的估计B3.将系统状态xk、下一时刻状态估计与DTHJB方程相关参数输入到评价网中,利用评价网权值更新公式进行权值更新。B4.将系统状态xk、下一时刻状态估计DTHJB方程相关参数与评价网输出共同输入到执行网中,利用执行网权值更新公式更新执行网的连接权重,并得出当前时刻控制率。B5.将系统更新后的状态与当前控制率输入到宽度学习系统中,重复B2步骤,直至评价网与执行网权值收敛。C、实施控制策略C1.采用PWM信号输出单元根据数模转换单元的输出数据产生相应的PWM波形。C2.执行机构根据PWM波形脉冲将电脉冲信号转换为角位移或线位移,驱使转舵装置,完成对船舶运动的控制。进一步的,S2中具体采用如下方式:S21:定义离散系统无限时域上的最优控制目标函本文档来自技高网...

【技术保护点】
1.一种基于宽度学习的船舶运动无模型自适应最优控制方法,其特征在于包括以下步骤:S1:建立包含输入层和输出层的宽度学习模型,将被控船舶的航行状态信息输入至宽度学习模型进行模型的训练,将航行状态信息生成特征节点和增强节点并将三者共同作为宽度学习模型的输入层,其中航行状态信息至少包括航向、转艏角速度和舵角信息;S2:根据控制目标构建船舶航向的最优控制目标函数;S3:根据被控船舶当前状态利用训练好的宽度学习模型获得船舶下一时刻航行状态的估计;S4:构建评价网和执行网的三层BP神经网络结构;S5:将船舶当前状态和估计状态以及最优控制目标函数的相关参数输入至评价网中,利用评价网权值更新公式进行权值更新;S6:将船舶当前状态、估计状态、最优控制目标函数的相关参数和评价网输出值输入至执行网中,利用执行网权值更新公式更新执行网的连接权重从而获得船舶当前时刻控制率,根据当前时刻控制率更新船舶航行状态;S7:将更新后的船舶状态与当前控制率输入到宽度学习模型中重复S3‑S7,在此过程中评价网和执行网权值收敛得到船舶航向的近似最优控制。

【技术特征摘要】
1.一种基于宽度学习的船舶运动无模型自适应最优控制方法,其特征在于包括以下步骤:S1:建立包含输入层和输出层的宽度学习模型,将被控船舶的航行状态信息输入至宽度学习模型进行模型的训练,将航行状态信息生成特征节点和增强节点并将三者共同作为宽度学习模型的输入层,其中航行状态信息至少包括航向、转艏角速度和舵角信息;S2:根据控制目标构建船舶航向的最优控制目标函数;S3:根据被控船舶当前状态利用训练好的宽度学习模型获得船舶下一时刻航行状态的估计;S4:构建评价网和执行网的三层BP神经网络结构;S5:将船舶当前状态和估计状态以及最优控制目标函数的相关参数输入至评价网中,利用评价网权值更新公式进行权值更新;S6:将船舶当前状态、估计状态、最优控制目标函数的相关参数和评价网输出值输入至执行网中,利用执行网权值更新公式更新执行网的连接权重从而获得船舶当前时刻控制率,根据当前时刻控制率更新船舶航行状态;S7:将更新后的船舶状态与当前控制率输入到宽度学习模型中重复S3-S7,在此过程中评价网和执行网权值收敛得到船舶航向的近似最优控制。2.根据权利要求1所述的一种基于宽度学习的船舶运动无模型自适应最优控...

【专利技术属性】
技术研发人员:李铁山原梁恩陈俊龙左毅单麒赫肖杨高潇阳时权马玉琢
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1