【技术实现步骤摘要】
基于MCMC优化Q学习的自主航行器控制参数在线调节方法
本专利技术属于自主航行器控制参数在线调整领域,具体的说是一种对自主航行器控制参数调节的方法。
技术介绍
航行器自主航行是指航行器在水面中通过人为指定到达的目的地,然后自主规划好行进的路径,最终通过不断的自我调节到达目的地。在水质巡检和水面巡逻等方面有着重要的应用价值。目前,传统的自主航行器采用的是固定PID参数方法,该方法采用固定的航行器控制参数,参数是由大量的航行器自主航行工程项目经验所获取。当固定的控制参数不适合当前环境时会给航行器自主航行带来超调和响应延时的问题,尤其是在环境多变的情况下,固定的控制参数可能对个别环境状态有较好的响应,但是却不能满足所有的环境情况,当环境改变时需要人为的更改航行器控制参数不便于航行器的使用。还有一些采用模糊算法、退火算法来进行航行器控制参数调节的方法,这些方法在一定程度上引入了控制参数自动调节机制,但是由于这些方法本身不是智能控制算法,所以对环境多变的情况仍然无法解决自主航行器控制参数快速调节到最优值的问题。
技术实现思路
本专利技术为解决上述现有技术中存在的不足之处,提供了 ...
【技术保护点】
一种基于MCMC优化Q学习的自主航行器控制参数在线调节方法,其特征在于:包括以下步骤:步骤1、根据自主航行器的控制精度α,利用式(1)分别得到自主航行器PID三个控制参数kp、ki和kd的调节参数Δkp、Δki和Δkd:
【技术特征摘要】
1.一种基于MCMC优化Q学习的自主航行器控制参数在线调节方法,其特征在于:包括以下步骤:步骤1、根据自主航行器的控制精度α,利用式(1)分别得到自主航行器PID三个控制参数kp、ki和kd的调节参数Δkp、Δki和Δkd:式(1)中,Xp、Xi、Xd分别表示所述自主航行器三个PID控制参数kp、ki和kd的阈值范围;步骤2、利用所述调节参数Δkp、Δki和Δkd组合得出所述自主航行器的参数变化动作集合,记为A={a1,a2,···,an,···,aN},其中,an表示所述参数变化动作集合中第n个控制参数调节动作,且表示所述第n个动作所对应的比例调节参数,表示所述第n个动作所对应的积分调节参数,表示所述第n个控制参数调节动作所对应的微分调节参数,n=1,2,…,N;步骤3、设定时间t=1,随机选择一个控制参数调节动作作用于所述自主航行器;初始化Q学习算法中的相关参数:t时刻学习因子lt和折扣因子γ,lt>0,γ∈[0,1];根据所述自主航行器的控制经验来初始化所述PID三个控制参数kp、ki和kd;将所述Q学习算法中t-1时刻的值函数估计值进行初始化,其中,et-1表示所述自主航行器在t-1时刻的误差,Δet-1表示所述自主航行器在t-1时刻的误差变化率,并由et-1和Δet-1组成t-1时刻的环境状态;步骤4、根据所述自主航行器的参数变化动作集合A中控制参数调节动作的个数N,利用式(2)对Q学习算法中的决策过程的转移矩阵进行初始化:式(2)中,表示t-1时刻从控制参数调节动作转移到控制参数调节动作的转移概率,且当t=1时,步骤5、利用MCMC优化Q学习算法获取t时刻的决策过程;步骤5.1、利用式(3)计算t时刻第n个控制参数调节动作在环境状态下的值函数值式(3)中,wj(t-1)表示BP神经网络中t-1时刻第j个隐含层的权值,j=1,2,...,nh;nh表示BP神经网络隐含层的个数;yj(t-1)表示BP神经网络中t-1时刻第j个隐含层的输出,并有:式(4)中,oj(t-1)表示BP神经网络中t时刻第j个隐含层的输入,并有:式(5)中,wij(t-1)表示BP神经网络中t-1时刻第i个输入层到第j个隐含层的权值,xi(t-1)表示BP神经网络中t-1时刻第i个输入层的输入,i=1,2,...,ni,ni表示BP神经网络输入层的个数;步骤5.2、利用MCMC算法采样得出t时刻所述自主航行器的控制参数调节动作步骤5.2.1、根据t时刻第n个控制参数调节动作在环境状态下的值函数值和t-1时刻选取的动作利用式(6)更新决策过程的转移概率矩阵式(6)中,表示t时刻第n个控制参数调节动作的值函数值,即表示t时刻所有动作的值函数值的求和,n=1,2,…,N;表示t时刻从第n个控制参数调节动作转移到第m个控制参数调节动作的转移概率;步...
【专利技术属性】
技术研发人员:夏娜,柴煜奇,杜华争,陈斌,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。