面向工业大数据的多层增量特征提取方法技术

技术编号:18115753 阅读:52 留言:0更新日期:2018-06-03 08:35
本发明专利技术提出了一种面向工业大数据的多层增量特征提取方法,其特征在于,包括如下步骤:首先对实时数据采用滑动窗口动态更新数据,对上一个窗口数据利用基于反k近邻方法检测离群点,然后基于IPCA进行初步特征提取,对初步提取的特征进行增量更新协方差矩阵的特征值和特征向量;根据Fisher准则函数量化主元信息,通过熵值法分析主元贡献率和判别能力权重;然后获取主元综合得分、筛选主元;此时进行第二次特征提取,提取的特征与当前窗口的数据进行投影进行增量线性判别分析;最后降维喝分类后的数据样本。

【技术实现步骤摘要】
面向工业大数据的多层增量特征提取方法
本专利技术涉及一种面向工业大数据的多层增量特征提取方法。
技术介绍
德国工业4.0及中国制造2025的提出,使工业智能化发展快速升温,大量物联网传感器及带数据接口装备的使用,形成了海量的工业实时数据,设计业务、生产业务、质量检测业务及运维业务的正确设计与执行对过程实时数据依赖越来越强烈,对大数据实时处理技术提出了更高的要求。由于工业数据采集技术、通讯技术、采集成本、数据存储等限制,以及目前个性化定制化产品的日益增多,使得大数据中存在数据维度高,数据样本小,以及低价值数据多等问题,这些问题使得数据实时分析难度加大。因此,为了充分发挥工业大数据的实时处理作用,就必须对工业大数据进行实时降维处理,特征提取是常用方法之一,其原理是将原数据空间通过线性或非线性方法映射到一个维度更低、变量间相互独立的特征空间。通过该变换来消除变量之间的相关性,降低噪音并删除冗余信息,以较少的新变量之间的互补作用来最大限度地保留原始数据的信息。目前数据降维方法多以传统方法为基础,对新到达数据进行快速更新计算。传统特征提取方法主要有主成分分析(PrincipalComponentAnalysis,PCA)、线性判别分析(LinearDiscriminantAnalysis,LDA)和偏最小二乘法(PartialLeastSquares,PLS)等:1)在主成分分析方面,文献提出一种适用于处理分布式数据流的PCA算法,利用滑动时间窗口机制与并行计算模型相结合,完成数据流实时快速降维,更适合大规模数据流计算与应用;文献设计了一种增量核主成分分析算法,其迭代估计只占用线性内存开销,降低了运算复杂度;文献在增量核主成分分析的基础上,提出了一种针对大数据量的扩展增量核主成分分析算法,进一步减少了计算时间和内存使用量;文献提出了一种奇异值分解(SingularValueDecomposition,SVD)的核主成分分析算法,该算法首先利用降核主成分分析(ReducedKernelPrincipalComponentAnalysis,RKPCA)选择观察值,然后使用增量和递减的内核矩阵SVD更新RKPCA模型,降低了对内存和计算时间的要求。2)在线性判别分析方面,已有研究人员用增量更新的方式提高线性判别分析的运算效率,以满足实时性的要求,然而该方法在数据采集的初始阶段,数据量相对较小,会面临高维小样本问题,引起类内散度矩阵奇异化,导致获取最佳投影空间的最优化判别准则失效。针对该问题,文献使用了两个正则化标准,以导出类内散度矩阵范围空间内的规则判别向量和零空间中的不规则判别向量;文献提出一种改进的伪逆线性判别分析,解决了因类内散度矩阵奇异无法获得最佳投影空间的问题;文献利用粒子群算法寻优机制直接搜索合适的投影矢量,不必求解矩阵特征值和特征向量;文献研究并实现了张量子空间下的张量线性判别分析算法,同时修正了无法并行求解算法中两个投影矩阵的问题。3)在偏最小二乘法方面,文献设计了一种进行大批量数据流计算的增量偏最小二乘法;文献提出了一种增量高阶偏最小二乘法,通过随时间递归更新投影矩阵和核心张量,降低了存储器和运行时间的成本。上述传统特征提取方法中,LDA属于监督学习的方法,在降维的同时构建分类模型,在工业领域获得了更加广泛的应用,但是在实时数据处理方面有所欠缺,无法适应高维小样本实时数据特征的有效提取;改进的LDA虽然解决了因类内散度矩阵奇异无法获得最佳投影空间的问题,但在初步特征提取后的主元选择过程中,仅以最大程度存留样本的变异信息为原则,容易造成其判别信息的丢失。熵值法能够度量变量所含有的变化信息,在权重分析中得到广泛应用。因此,选用熵值法分配权重,进一步筛选主元,综合衡量各主元所包含的变异信息及其判别能力,结合增量线性判别分析(IncrementalLinearDiscriminantAnalysis,ILDA)实现降维,有效解决了高维小样本学习性能不佳的问题。
技术实现思路
基于上述问题,本专利技术针对工业大数据中的实时数据处理问题,结合熵值法和ILDA提出一种面向工业大数据的多层增量特征提取方法,在降维的同时兼顾其判别能力,并通过空间映射进行增量线性判别分析,以评估降维后数据的分类效果。根据上述专利技术目的,本专利技术通过以下技术方案来实现:一种面向工业大数据的多层增量特征提取方法,包括如下步骤:首先对实时数据采用滑动窗口动态更新数据,对上一个窗口数据利用基于反k近邻方法检测离群点,然后基于IPCA进行初步特征提取,对初步提取的特征进行增量更新协方差矩阵的特征值和特征向量;根据Fisher准则函数量化主元信息,通过熵值法分析主元贡献率和判别能力权重;然后获取主元综合得分、筛选主元;此时进行第二次特征提取,提取的特征与当前窗口的数据进行投影进行增量线性判别分析;最后降维喝分类后的数据样本。作为优选地,了避免离群点对增量主成分分析的影响,该方法首先采用滑动窗口动态更新数据,基于反k近邻(Reversek-nearestneighbors,RKNN)过滤窗口内实时数据的离群点;其次利用增量主成分分析进行初步特征提取,避免了类内散度矩阵的特征值分解步骤,且每次新的实时数据到来时不需要重新扫描所有数据;然后综合衡量各主元所包含的变异信息及其判别能力,结合熵值法筛选主元新的特征空间,将当前窗口的高维数据通过ILDA方法投影,完成二次增量特征提取的同时确定样本类别。本专利技术主要以IPCA、熵值法和ILDA为基础,提出一种面向工业大数据的多层增量特征提取方法。该方法首先利用IPCA对样本进行初步特征提取,同时利用周期更新的滑动窗口对当前窗口数据进行离群点检测和过滤,减少离群点对特征提取的影响。其次根据熵值法综合衡量各主元所包含的变异信息及判别能力,以该综合指标对各主元进行筛选,获取新的低维特征空间,最后将当前窗口的高维数据通过增量线性判别分析投影,完成二次特征提取的同时确定样本类别。仿真结果表明,该方法在保留样本变异信息的同时兼顾其判别能力,在此基础上实现降维,有效解决了高维小样本学习性能不佳的问题。附图说明图1为,多层增量特征提取方法具体流程图。具体实施方式为让本领域的技术人员更加清晰直观的了解本专利技术,下面将对本专利技术作进一步的说明。一种面向工业大数据的多层增量特征提取方法,具体流程如图1所示。首先对实时数据采用滑动窗口动态更新数据,对上一个窗口数据利用基于反k近邻方法检测离群点,然后基于IPCA进行初步特征提取,对初步提取的特征进行增量更新协方差矩阵的特征值和特征向量;根据Fisher准则函数量化主元信息,通过熵值法分析主元贡献率和判别能力权重;然后获取主元综合得分、筛选主元;此时进行第二次特征提取,提取的特征与当前窗口的数据进行投影进行增量线性判别分析;最后降维喝分类后的数据样本。了避免离群点对增量主成分分析的影响,该方法首先采用滑动窗口动态更新数据,基于反k近邻(Reversek-nearestneighbors,RKNN)过滤窗口内实时数据的离群点;其次利用增量主成分分析进行初步特征提取,避免了类内散度矩阵的特征值分解步骤,且每次新的实时数据到来时不需要重新扫描所有数据;然后综合衡量各主元所包含的变异信息及其判别能力,结本文档来自技高网
...
面向工业大数据的多层增量特征提取方法

【技术保护点】
一种面向工业大数据的多层增量特征提取方法,其特征在于,包括如下步骤:首先对实时数据采用滑动窗口动态更新数据,对上一个窗口数据利用基于反k近邻方法检测离群点,然后基于IPCA进行初步特征提取,对初步提取的特征进行增量更新协方差矩阵的特征值和特征向量;根据Fisher准则函数量化主元信息,通过熵值法分析主元贡献率和判别能力权重;然后获取主元综合得分、筛选主元;此时进行第二次特征提取,提取的特征与当前窗口的数据进行投影进行增量线性判别分析;最后降维喝分类后的数据样本。

【技术特征摘要】
1.一种面向工业大数据的多层增量特征提取方法,其特征在于,包括如下步骤:首先对实时数据采用滑动窗口动态更新数据,对上一个窗口数据利用基于反k近邻方法检测离群点,然后基于IPCA进行初步特征提取,对初步提取的特征进行增量更新协方差矩阵的特征值和特征向量;根据Fisher准则函数量化主元信息,通过熵值法分析主元贡献率和判别能力权重;然后获取主元综合得分、筛选主元;此时进行第二次特征提取,提取的特征与当前窗口的数据进...

【专利技术属性】
技术研发人员:莫燮彬
申请(专利权)人:佛山市米良仓科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1