一种多目标任务的控制方法技术

技术编号:20023660 阅读:25 留言:0更新日期:2019-01-06 03:27
本发明专利技术是一种多目标任务的控制方法,通过一个或多个神经网络,在主要控制目标达成的基础上最大限度地达成次要控制目标。传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器或第一神经网络后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给神经网络辅助系统,并将所述第一控制量也传输给神经网络辅助系统,神经网络辅助系统在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器,并且循环上述步骤。

【技术实现步骤摘要】
一种多目标任务的控制方法
本专利技术属于自动控制
,具体涉及一种多目标任务的控制方法。
技术介绍
多目标控制是指同时控制两个或者两个以上的相互依赖的目标。多目标控制系统由于多个目标量,所以存在多个控制量及多个观测量,而且目标量随着控制量非线性变化。现有的多目标控制方案根据大量实验以及工程师经验调整控制系统参数,所以调参难度比较大。而且设备本身老化或者设备工作环境与实验室环境不一致,导致控制结果无法达到最优,所以适应性较差。如附图1所示的传统多目标控制系统中,传感器探测外部环境得到的观测值直接反馈给控制器,控制器根据主目标和多个次目标进行计算,得到控制量之后直接输出给功能系统,对外部环境产生影响。但现有的多目标控制方案的外部环境有非线性,快时变的特点,功能系统则有非线性、慢时变的特点,而且反馈观测量的传感器本身有不稳定因素及误差因素。因此控制器即使得到传感器的反馈之后很难做出精确的控制。近几年开始研发神经网络系统,其特点有根据输入信号产生一组预测值输出信号,且允许输入或输出高维参数向量,及支持非线性映射,并通过改变网络权重,调整输入到输出的映射函数等特点。等效函数组合或查找表在本质上神经网络完成了一个高维向量x到另一个高维向量y的(线性或非线性)映射,即y=f(x);等效地,该函数也可以用一个低维输入输出函数的集合{yi=fi,j(xj)}以及一个调用函数的规则体系达到同等的性能;在输入输出维度不高时,甚至可以通过构建查找表,将所有输入量组合对应的输出量存储下来以供使用时查找;或者用查找表和函数组合等效的方法。然而,等效方法往往需要付出更高存储的代价,并且难以进行调整,需要逐个对函数集合中的成员函数或者查找表中的各个元组进行逐个更新。神经网络具有运算速度快、消耗资源少等优点,运用于诸多方面且取得了较佳结果,具有很高的研究与运用价值。尤其在控制系统里面,具有开发时间短、灵活性高等优点,非常适合多目标控制系统。
技术实现思路
本专利技术提出了一种多目标任务的控制方法,以达到主要控制目标的情况下,同时最大限度地达成次要控制目标。为了达到以上目的,本专利技术通过以下技术方案实现:一种多目标任务的控制方法,传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器,且经过主控制器的计算后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给神经网络辅助系统,并将所述第一控制量也传输给神经网络辅助系统,神经网络辅助系统在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器。优选地,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。优选地,所述神经网络辅助系统的输入还包括一个或者多个用以表征主要控制目标达成所需的辅助指标值;所述的辅助指标值由第一控制量和部分观测值计算得到。优选地,所述神经网络辅助系统的一种训练方法如下:步骤1.1、通过系统模拟软件或在实验室环境下对系统进行测量,获得n组训练样本数据:每一组训练样本数据通过随机设置系统控制量{c1,c2,…,cM},随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;步骤1.2、根据n组样本数据,记录由主目标量和观测量组成的向量Xi(y1,s1,S2,...,SK)且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;步骤1.3、构建代价函数其中,和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;代价函数对神经网络权值向量的梯度为其中,权值向量W=(w1,w2,…,wm);步骤1.4、根据梯度下降算法更新权重向量其中,α取值一般为0.001,或根据其它已有的机器学习技术动态调整;步骤1.5、迭代执行步骤1.4更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。一种多目标任务的控制方法,传感器检测外部环境,得到一组观测值;将所述观测值反馈给第一神经网络,且经过第一神经网络的计算后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给第二神经网络,并将所述第一控制量也传输给第二神经网络,第二神经网络在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给所述第一神经网络。优选地,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。优选地,所述第二神经网络的一种训练方法如下:步骤2.1、通过系统模拟软件或在实验室环境下对系统进行测量,获得n组训练样本数据:每一组训练样本数据通过随机设置系统控制量{c1,c2,…,cM},和随机设置环境参数并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;步骤2.2、根据n组样本数据,记录由主目标量和观测量组成的向量Xi=(y1,s1,s2,…,sK)且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;步骤2.3、构建代价函数其中,和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;代价函数对神经网络权值向量的梯度为其中,权值向量W=(w1,w2,…,wm);步骤2.4、根据梯度下降算法更新权重向量其中,α取值一般为0.001,或根据已有的机器学习技术动态调整;步骤2.5、迭代执行步骤2.5更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。优选地,所述第一神经网络的一种训练方法如下:步骤3.1、首先完成对第二神经网络的训练;步骤3.2、对于连续的T次操作以及最终获得的累积主目标量门限v,第t次操作时,第一神经网络的输入是其输出是一个期望的主目标值步骤3.3、构建辅助模块,其输入为以为输入通过第二神经网络对系统进行连续T次操作中,第t次得到的目标值输出为步骤3.4、通过强化学习算法,将第一神经网络作为强化学习算法中的Agent,在某次试验的第k步,第一神经网络的输出经过第二神经网络生成控制向量{c1,c2,…,cM},并作用于系统,得到主目标值用辅助模块计算RL的奖励函数值,并反馈给学习算法,更新第一神经网络的权重向量;所述强化学习算法包含:Sarsa,Q-Learning,DDPG。一种多目标任务的控制方法,传感器检测外部环境,得到一组观测值,将所述观测值反馈给神经网络,且经过所述神经网络计算出一个控制量;所述控制量在主要控制目标达成的基础上,最大限度地达成次要控制目标;通过所述控制量功能系统进行输出,并且传感器检测外本文档来自技高网
...

【技术保护点】
1.一种多目标任务的控制方法,其特征在于,传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器,且经过主控制器的计算后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给神经网络辅助系统,并将所述第一控制量也传输给神经网络辅助系统,神经网络辅助系统在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器。

【技术特征摘要】
1.一种多目标任务的控制方法,其特征在于,传感器检测外部环境,得到一组观测值,将所述观测值反馈给主控制器,且经过主控制器的计算后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给神经网络辅助系统,并将所述第一控制量也传输给神经网络辅助系统,神经网络辅助系统在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给主控制器。2.如权利要求1所述的一种多目标任务的控制方法,其特征在于,神经网络的初始参数在系统设置时离线调优;或,神经网络的参数通过在线学习以适应环境以及设备系统的变化;神经网络的参数更新在系统本地自动地进行,或通过联网下载,或人工调整;或者,以等效函数组合或查找表代替所述神经网络。3.如权利要求1所述的一种多目标任务的控制方法,其特征在于,所述神经网络辅助系统的输入还包括一个或者多个用以表征主要控制目标达成所需的辅助指标值;所述的辅助指标值由第一控制量和部分观测值计算得到。4.如权利要求1所述的一种多目标任务的控制方法,其特征在于,所述神经网络辅助系统的一种训练方法如下:步骤1.1、通过系统模拟软件或在实验室环境下对系统进行测量,获得n组训练样本数据:每一组训练样本数据通过随机设置系统控制量{c1,c2,…,cM},随机设置或者按照一定顺序遍历典型环境参数,并记录观测量{s1,s2,…,sK},测量各个目标量{y1,y2,…,yN};目标量集合中y1是主目标量,其它是次目标量;步骤1.2、根据n组样本数据,记录由主目标量和观测量组成的向量Xi=(y1,s1,s2,…,sk)且在所述向量的每一种可能的取值所对应的最佳控制量,使得次目标量最大化;其中,i=1,2,…,n,λi为一组重要性权重,默认值为全1;步骤1.3、构建代价函数其中,和Ci分别代表网络输出的控制量和前一步得到的最佳控制量;代价函数对神经网络权值向量的梯度为其中,权值向量W=(w1,w2,…,wm);步骤1.4、根据梯度下降算法更新权重向量其中,α取值一般为0.001,或根据其它已有的机器学习技术动态调整;步骤1.5、迭代执行步骤1.4更新权值向量,直到达到预设的最大迭代次数,或满足收敛准则。5.一种多目标任务的控制方法,其特征在于,传感器检测外部环境,得到一组观测值;将所述观测值反馈给第一神经网络,且经过第一神经网络的计算后得到第一控制量;所述第一控制量用来达成主要控制目标;将所述观测值反馈给第二神经网络,并将所述第一控制量也传输给第二神经网络,第二神经网络在不影响主要控制目标达成的基础上,计算出最大限度地达成次要控制目标的第二控制量;通过所述第二控制量功能系统进行输出,并且传感器检测外部环境得到的观测值反馈给所述第一神经网络。6.如权利要求5所述的一种多目标任务的控制方法,其特征在于,神经网络的初始参数在...

【专利技术属性】
技术研发人员:江一波卿川东
申请(专利权)人:宁波溪棠信息科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1