A multi-dimension analysis method for data similarity of industrial process based on multi-class set is proposed. The steps are: 1) setting the class set; 2) collecting actual data and pretreatment; 3) forming a number of data sets; 4) extracting part of data from each data set and marking them as representative data of the data set; 5) representing each data set. Table data, similarity analysis of different dimensions to generate similarity values table. According to different data dimensions, the invention carries out similarity analysis on some data features, thereby realizing similarity analysis on data of different categories, finding out the hidden relationship between different categories, and studying the reasons of different operation states in the system, so as to facilitate data mining, retrieval and analysis, and searching. Find out the cause of the working condition.
【技术实现步骤摘要】
一种多类别集工业过程数据相似度多维度分析方法
本专利技术涉及一种数据相似度分析
,特别是一种多类别集工业过程的数据相似度多维度分析方法。
技术介绍
目前,数据挖掘在工业数据中的应用相当流行,相似度分析方法是数据挖掘分析中的一种重要的手段。面对海量的工业过程数据,如何从中挖取对工业系统的分析有价值的数据,一直是对工业过程数据分析的重要目的。在工业过程数据的挖掘中,一般的方法都是从数据整体来进行研究,通过对海量数据进行聚类分类等处理,从得到的数据类别来分析系统可能的运行状态、检测异常。一般的研究重点都放在了具有高度相似的同类别数据集中,而不同类别之间的相似度难以计算与分析。
技术实现思路
本专利技术的目的就是提供一种多类别集工业过程数据相似度多维度分析方法,通过对不同类别集的数据在不同的维度下,进行相似度分析,来找出各类别集之间存在的隐含联系。本专利技术的目的是通过这样的技术方案实现的,具体步骤如下:1)根据已有样本数据,设定类别集;2)采集实际数据,并对实际数据进行预处理;3)对步骤2)处理后的实际数据,根据步骤1)设定的类别集进行分类,形成若干数据集;4)从步骤3)中的数据集抽取数据,标记数据来源,作为该类别集的代表数据;5)针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表;6)从步骤3)中的数据集重新抽取数据,标记数据来源,作为该类别集的新的代表数据,对该类别集中的新代表数据进行不同维度的相似度分析,形成新的相似度数值表。进一步,步骤1)中所述设定类别集的具体方法为:1-1)根据工业过程数据的属性和特点, ...
【技术保护点】
1.一种多类别集工业过程数据相似度多维度分析方法,其特征在于,具体步骤如下:1)根据已有样本数据,设定类别集;2)采集实际数据,并对实际数据进行预处理;3)对步骤2)处理后的实际数据,根据步骤1)设定的类别集进行分类,形成若干数据集;4)从步骤3)中的数据集抽取数据,标记数据来源,作为该类别集的代表数据;5)针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表;6)从步骤3)中的数据集重新抽取数据,标记数据来源,作为该类别集的新的代表数据,对该类别集中的新代表数据进行不同维度的相似度分析,形成新的相似度数值表。
【技术特征摘要】
1.一种多类别集工业过程数据相似度多维度分析方法,其特征在于,具体步骤如下:1)根据已有样本数据,设定类别集;2)采集实际数据,并对实际数据进行预处理;3)对步骤2)处理后的实际数据,根据步骤1)设定的类别集进行分类,形成若干数据集;4)从步骤3)中的数据集抽取数据,标记数据来源,作为该类别集的代表数据;5)针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表;6)从步骤3)中的数据集重新抽取数据,标记数据来源,作为该类别集的新的代表数据,对该类别集中的新代表数据进行不同维度的相似度分析,形成新的相似度数值表。2.如权利要求1所述的多类别集工业过程数据相似度多维度分析方法,其特征在于,步骤1)中所述设定类别集的具体方法为:1-1)根据工业过程数据的属性和特点,设定数据的特征Xm;1-2)利用监督学习算法,对样本数据按照数据特征进行训练分类得到n个类别集。3.如权利要求2所述的多类别集工业过程数据相似度多维度分析方法,其特征在于,步骤2)中所述对实际数据进行预处理的具体方法为:剔除掉野点数据,并进行归一化处理。4.如权利要求3所述的多类别集工业过程数据相似度多维度分析方法,其特征在于,步骤3)中所述形成若干数据集的具体方法为:将实际数据与n个类别集进行匹配,经过多次迭代后,形成n个数据集。5.如权利要求4所述的多类别集工业过程数据相似度多维度分析方法,其特征在于,步骤4)中所述抽取数据的具体方法为:利用随机抽样的方法,从每个数据集中随机抽取一组数据,标记数据所属数据集,作为该数据集的代表数据。6.如权利要求5所述...
【专利技术属性】
技术研发人员:陈新碧,
申请(专利权)人:重庆沐信润喆网络科技有限公司,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。