基于迁移学习的多模式流程工业过程的数据驱动故障检测方法技术

技术编号:36229308 阅读:20 留言:0更新日期:2023-01-04 12:28
本发明专利技术公开了一种基于迁移学习的多模式流程工业过程的数据驱动故障检测方法,包括:采集流程工业过程的历史数据;利用基于Tucker分解的高斯核函数处理非线性数据,然后基于相关性信息的迁移学习方法减小源域和目标域数据分布的差异,获得域间共享特征;根据域间共享特征,基于典型多元分解和主成分分析建立流程工业过程的多模式故障检测模型;根据域间共享特征,进行平稳性检验分离非平稳变量,利用协积分分析建立非平稳变量的动态平稳监测模型,最终建立一套完整的多模式流程工业过程故障检测模型;利用建立好的多模式流程工业过程故障检测模型,应用于多模式流程工业过程的在线故障检测。本发明专利技术能够提高系统故障检测的效率和准确率。率和准确率。率和准确率。

【技术实现步骤摘要】
基于迁移学习的多模式流程工业过程的数据驱动故障检测方法


[0001]本专利技术涉及流程工业过程故障检测
,特别涉及一种基于迁移学习的多模式流程工业过程的数据驱动故障检测方法。

技术介绍

[0002]故障检测对于复杂工业系统的安全运行至关重要。基于数据驱动的故障检测方法相比基于知识和解析模型的方法具有建模过程简单、无需复杂机理建模等优点。因此,关于数据驱动故障检测方法的研究和应用正在广泛地开展。其中,基于多元统计的方法受到越来越多的关注。然而,这些方法都需要大量的历史数据来建立模型。但是,在实际生产过程中,某些流程工业过程无法获得大量的历史数据。比如一座未正式投入使用的新的污水处理厂,它的可获取的历史数据很少。虽然旧的污水处理厂有着大量的历史数据,但是旧的污水处理厂的历史数据不能直接作为新的污水处理厂的历史数据,否则会导致用于模型训练和测试的数据来自不同的分布,从而使建立的系统模型的性能下降。这是因为新的和旧的污水处理厂的工艺参数不同,它们在相同模式下收集的数据的分布会有差异。除此之外,流程工业过程还具有多模式、非线性的特点。传统的基于多元统计的方法大多只适用于线性假设的情况,大多建立的是单模式的系统模型。
[0003]综上所述,基于数据驱动的故障检测方法大部分依赖于足够的历史数据,并且要求用于模型训练和测试的数据通常来自相同的分布,对于一些实际的流程工业过程来说,这些条件难以满足。除此之外,工业过程数据还表现出非线性的特点,基于多元统计的故障检测方法大多只适用于线性假设的情况,不能处理非线性的情况。当系统呈现出非线性的特点时,传统的基于多元统计的方法很难建立起准确的系统模型。此外,流程工业过程数据还呈现出多模式的特点,这使得系统模型在监测故障时,要能区分模式变化和故障变化,避免系统错误地将模式变化判断为故障。在大多数的数据驱动的故障检测方法中,这个问题并没有被考虑到。

技术实现思路

[0004]本专利技术的目的在于提供一种基于迁移学习的多模式流程工业过程的数据驱动故障检测方法,针对多模式的流程工业过程,在没有足够历史数据的情况下,或者用于模型训练和测试的数据来自不同的分布时,通过迁移学习技术来建立系统的故障检测模型,解决目标对象无法建模的问题;针对多模式的流程工业过程,在系统呈现出非线性的特点时,利用基于张量分解的核函数处理非线性数据,通过基于典型多元分解的子空间分离的技术解决多模式系统建模的问题,降低了建模成本,提高了系统检测效率;针对多模式的流程工业过程,通过协积分分析建立系统的动态平稳监测模型来区分模式变化和故障变化,避免系统错误地将模式变化判断为故障,提高了系统检测的准确率。
[0005]为解决上述技术问题,本专利技术的实施例提供如下方案:
一种基于迁移学习的多模式流程工业过程的数据驱动故障检测方法,包括以下步骤:S1,采集流程工业过程的历史数据;利用基于Tucker分解的高斯核函数处理非线性数据,然后基于相关性信息的迁移学习方法减小源域和目标域数据分布的差异,获得域间共享特征;S2,根据域间共享特征,基于典型多元分解和主成分分析建立流程工业过程的多模式故障检测模型;S3,根据域间共享特征,进行平稳性检验分离非平稳变量,利用协积分分析建立非平稳变量的动态平稳监测模型,最终建立一套完整的多模式流程工业过程故障检测模型;S4,利用建立好的多模式流程工业过程故障检测模型,应用于多模式流程工业过程的在线故障检测。
[0006]优选地,所述步骤S1具体包括以下步骤:S11,采集流程工业过程的历史数据;这里的流程工业过程指污水处理过程,采集的历史数据反映污水处理过程的运行状况,形成污水处理数据的数据集;采集的数据集包括作为源域的第一污水处理厂的数据和作为目标域的第二污水处理厂的数据;S12,利用步骤S11采集的数据集作为训练数据,利用基于Tucker分解的高斯核函数处理非线性数据;根据Tucker分解的定义,一个N阶张量X表示为如下的关于因子矩阵列向量外积的形式:其中,X是一个N阶张量,N表示张量的阶数,G是核张量,是因子矩阵,这里;表示指标集,表示核张量G在各个阶数上的维度大小,表示核张量G在各个阶数上的分量,表示各个因子矩阵的列向量;根据核函数映射理论,对已有的Tucker分解式作如下的变换:其中,表示一个核映射,表示的高维核映射,表示的高维核映射;假设X,Y为原始空间的张量,对它们进行Tucker分解:
其中,X是一个N阶张量,N表示张量的阶数,表示张量X的因子矩阵的列向量;Y是一个N阶张量,表示指标集,表示张量Y的核张量在各个阶数上的维度大小,表示张量Y的核张量在各个阶数上的分量,表示张量Y的因子矩阵的列向量;在高维的特征空间中,核函数由两个高维元素的内积运算表示:其中,表示由张量X和张量Y构成的核函数,表示张量X的高维核映射,表示张量Y的高维核映射,表示的高维核映射,表示的高维核映射,表示的高维核映射,表示的高维核映射,表示高斯核函数;选择高斯核函数作为基础核函数,得到基于Tucker分解的高斯核函数为:其中,是高斯核函数中的控制参数,用于设置带宽,通过优化搜索算法找到最优值;S13,利用基于相关性信息的迁移学习方法减小源域和目标域数据分布的差异,获得域间共享特征;设有源域和目标域,假设源域数据是个模式的多模过程,目标域数据也是个模式
的多模过程,其中,和分别表示源域数据样本和目标域数据样本的数量,表示数据样本的变量数,表示维的实数空间,表示维的实数空间;则有:其中,表示数据样本的变量数,表示源域第个模式的数据,表示源域第个模式数据矩阵的第个列向量,表示目标域第个模式的数据,表示目标域第个模式数据矩阵的第个列向量;在高维特征空间中,源域的每个模式的数据表示为:其中,表示一个核映射,表示的高维映射,表示的高维映射;源域的第个模式的协方差矩阵为:其中,表示源域第个模式的数据矩阵的行向量,表示的高维映射;的主要特征通过寻找协方差矩阵的特征向量来求解:其中表示点乘,表示特征值,是源域协方差矩阵的特征向量;当时,的主要特征表示为:其中,是一组系数;同理,目标域第个模式的数据的高维映射为,它的主要特征为:
其中,是一组系数,表示目标域第个模式的数据矩阵的行向量,表示的高维映射,是目标域协方差矩阵的特征向量;利用核技巧,得到:其中,表示源域的非中心核矩阵,表示源域第个模式的系数因子矩阵,源域第个模式的所有的特征值都按照从大到小的形式排列,其相应的系数因子向量为,保留前个特征值,即保留前个系数因子向量;基于相似性理论,将特征向量的比较转化为系数因子的比较,求特征向量对应的得分转化为求相应系数因子对应的得分;中心核矩阵是使用非中心核矩阵计算得到的:其中,表示全为的阶方阵,它是核矩阵中心化的辅助矩阵;因此,得到:其中,表示源域第个模式的内核主成分矩阵的列向量,表示源域第个模式的协方差矩阵的特征向量,表示源域第个模式的系数因子矩阵的元素,表示中心核矩阵的函数,表示源域第个模式的数据,表示源域第个模式数据矩阵的行向量,表示的高维映射,表示保留的前个特征值,即降维后的维数,;源域的第个模式的内核主成分矩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的多模式流程工业过程的数据驱动故障检测方法,其特征在于,包括以下步骤:S1,采集流程工业过程的历史数据;利用基于Tucker分解的高斯核函数处理非线性数据,然后基于相关性信息的迁移学习方法减小源域和目标域数据分布的差异,获得域间共享特征;S2,根据域间共享特征,基于典型多元分解和主成分分析建立流程工业过程的多模式故障检测模型;S3,根据域间共享特征,进行平稳性检验分离非平稳变量,利用协积分分析建立非平稳变量的动态平稳监测模型,最终建立一套完整的多模式流程工业过程故障检测模型;S4,利用建立好的多模式流程工业过程故障检测模型,应用于多模式流程工业过程的在线故障检测。2.根据权利要求1所述的基于迁移学习的多模式流程工业过程的数据驱动故障检测方法,其特征在于,所述步骤S1具体包括以下步骤:S11,采集流程工业过程的历史数据;这里的流程工业过程指污水处理过程,采集的历史数据反映污水处理过程的运行状况,形成污水处理数据的数据集;采集的数据集包括作为源域的第一污水处理厂的数据和作为目标域的第二污水处理厂的数据;S12,利用步骤S11采集的数据集作为训练数据,利用基于Tucker分解的高斯核函数处理非线性数据;根据Tucker分解的定义,一个N阶张量X表示为如下的关于因子矩阵列向量外积的形式:其中,X是一个N阶张量,N表示张量的阶数,G是核张量,是因子矩阵,这里;表示指标集,表示核张量G在各个阶数上的维度大小,表示核张量G在各个阶数上的分量,表示各个因子矩阵的列向量;根据核函数映射理论,对已有的Tucker分解式作如下的变换:其中,表示一个核映射,表示 的高维核映射,表示 的高维核映射;假设X,Y为原始空间的张量,对它们进行Tucker分解:
其中,X是一个N阶张量,N表示张量的阶数,表示张量X的因子矩阵的列向量;Y是一个N阶张量,表示指标集,表示张量Y的核张量在各个阶数上的维度大小,表示张量Y的核张量在各个阶数上的分量,表示张量Y的因子矩阵的列向量;在高维的特征空间中,核函数由两个高维元素的内积运算表示:其中,表示由张量X和张量Y构成的核函数,表示张量X的高维核映射,表示张量Y的高维核映射,表示 的高维核映射,表示 的高维核映射,表示 的高维核映射,表示 的高维核映射,表示高斯核函数;选择高斯核函数作为基础核函数,得到基于Tucker分解的高斯核函数为:其中,是高斯核函数中的控制参数,用于设置带宽,通过优化搜索算法找到最优值;S13,利用基于相关性信息的迁移学习方法减小源域和目标域数据分布的差异,获得域间共享特征;设有源域和目标域,假设源域数据是个模式的多模过程,目标域数据也是个模式的多模过程,其中,和分别表示源域数据样本和目标域数据样本的数量,M表示数据样
本的变量数,表示 维的实数空间,表示 维的实数空间;则有:其中,M表示数据样本的变量数,表示源域第个模式的数据,表示源域第个模式数据矩阵的第M个列向量,表示目标域第个模式的数据,表示目标域第个模式数据矩阵的第M个列向量;在高维特征空间中,源域的每个模式的数据表示为:其中,表示一个核映射,表示 的高维映射,表示 的高维映射;源域的第个模式的协方差矩阵为:其中,表示源域第个模式的数据矩阵的行向量,表示 的高维映射;的主要特征通过寻找协方差矩阵的特征向量来求解:其中表示点乘,表示特征值,是源域协方差矩阵的特征向量;当时,的主要特征表示为:其中,是一组系数;同理,目标域第个模式的数据的高维映射为,它的主要特征为:
其中,是一组系数,表示目标域第个模式的数据矩阵的行向量,表示 的高维映射,是目标域协方差矩阵的特征向量;利用核技巧,得到:其中,表示源域的非中心核矩阵,表示源域第个模式的系数因子矩阵,源域第个模式的所有的特征值都按照从大到小的形式排列,其相应的系数因子向量为,保留前个特征值,即保留前个系数因子向量;基于相似性理论,将特征向量的比较转化为系数因子的比较,求特征向量对应的得分转化为求相应系数因子对应的得分;中心核矩阵是使用非中心核矩阵计算得到的:其中,表示全为的阶方阵,它是核矩阵中心化的辅助矩阵;因此,得到:其中,表示源域第个模式的内核主成分矩阵的列向量,表示源域第个模式的协方差矩阵的特征向量,表示源域第个模式的系数因子矩阵的元素,表示中心核矩阵的函数,表示源域第个模式的数据,表示源域第个模式数据矩阵的行向量,表示的高维映射,表示保留的前个特征值,即降维后的维数,;源域的第个模式的内核主成分矩阵为:
其中,表示源域第个模式的内核主成分矩阵的列向量;同理,目标域的第个模式的内核主成分矩阵为:其中,表示目标域第个模式的内核主成分矩阵的列向量;源域的第个模式的系数因子矩阵表示为:同理,目标域的第个模式的系数因子矩阵表示为:其中,表示 的列向量,表示 的列向量;源域和目标域系数因子的相关性为:目标是寻求函数所有大于0.6的因子组合;然后假设其中一组为特征中心;在源域中,根据典型相关分析,源域在特征中心上的特征为:其中,表示源域在特征中心上的特征,表示源域数据与特征中心的相关性矩阵,表示 的转置,表示源域的第个模式的内核主成分矩阵;同理,目标域在特征中心上的特征为:其中,表示目标域在特征中心上的特征,表示目标域数据与特征中心的相关性矩阵,表示目标域的第个模式的内核主成分矩阵;S14,源域数据和目标域数据之间最大平均差异距离越小,说明数据分布差异越小,因此有以下目标函数:
其中,MMD表示最大平均差异距离,表示最大平均差异距离矩阵,表示最大平均差异距离矩阵中的元素,和表示源域和目标域中内核主成分矩阵的行向量;表示源域...

【专利技术属性】
技术研发人员:李琳琳陈鑫彭鑫彭开香
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1