一种多类别集工业过程数据相似度多维度分析方法技术

技术编号:18940789 阅读:22 留言:0更新日期:2018-09-15 11:07
一种多类别集工业过程数据相似度多维度分析方法,具体步骤为:1)设定类别集;2)采集实际数据,并进行预处理;3)形成若干数据集;4)从每个数据集中抽取部分数据并做标记,作为该数据集的代表数据;5)针对每个数据集的代表数据,进行不同维度的相似度分析,生成相似度数值表。本发明专利技术针对不同的数据维度,对部分数据特征进行相似度分析,从而实现对不同类别集的数据进行相似度分析,来找出各类别集之间存在的隐含联系,研究系统中产生不同运行状态的原因,以便于数据的挖掘、检索与分析,寻找工况产生的原因。

A multi class similarity analysis method for industrial process data

A multi-dimension analysis method for data similarity of industrial process based on multi-class set is proposed. The steps are: 1) setting the class set; 2) collecting actual data and pretreatment; 3) forming a number of data sets; 4) extracting part of data from each data set and marking them as representative data of the data set; 5) representing each data set. Table data, similarity analysis of different dimensions to generate similarity values table. According to different data dimensions, the invention carries out similarity analysis on some data features, thereby realizing similarity analysis on data of different categories, finding out the hidden relationship between different categories, and studying the reasons of different operation states in the system, so as to facilitate data mining, retrieval and analysis, and searching. Find out the cause of the working condition.

【技术实现步骤摘要】
一种多类别集工业过程数据相似度多维度分析方法
本专利技术涉及一种数据相似度分析
,特别是一种多类别集工业过程的数据相似度多维度分析方法。
技术介绍
目前,数据挖掘在工业数据中的应用相当流行,相似度分析方法是数据挖掘分析中的一种重要的手段。面对海量的工业过程数据,如何从中挖取对工业系统的分析有价值的数据,一直是对工业过程数据分析的重要目的。在工业过程数据的挖掘中,一般的方法都是从数据整体来进行研究,通过对海量数据进行聚类分类等处理,从得到的数据类别来分析系统可能的运行状态、检测异常。一般的研究重点都放在了具有高度相似的同类别数据集中,而不同类别之间的相似度难以计算与分析。
技术实现思路
本专利技术的目的就是提供一种多类别集工业过程数据相似度多维度分析方法,通过对不同类别集的数据在不同的维度下,进行相似度分析,来找出各类别集之间存在的隐含联系。本专利技术的目的是通过这样的技术方案实现的,具体步骤如下:1)根据已有样本数据,设定类别集;2)采集实际数据,并对实际数据进行预处理;3)对步骤2)处理后的实际数据,根据步骤1)设定的类别集进行分类,形成若干数据集;4)从步骤3)中的数据集抽取数据,标记数据来源,作为该类别集的代表数据;5)针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表;6)从步骤3)中的数据集重新抽取数据,标记数据来源,作为该类别集的新的代表数据,对该类别集中的新代表数据进行不同维度的相似度分析,形成新的相似度数值表。进一步,步骤1)中所述设定类别集的具体方法为:1-1)根据工业过程数据的属性和特点,设定数据的特征Xm;1-2)利用监督学习算法,对样本数据按照数据特征进行训练分类得到n个类别集。进一步,步骤2)中所述对实际数据进行预处理的具体方法为:剔除掉野点数据,并进行归一化处理。进一步,步骤3)中所述形成若干数据集的具体方法为:将实际数据与n个类别集进行匹配,经过多次迭代后,形成n个数据集。进一步,步骤4)中所述抽取数据的具体方法为:利用随机抽样的方法,从每个数据集中随机抽取一组数据,标记数据所属数据集,作为该数据集的代表数据。进一步,步骤5)中所述针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表的具体方法为:5-1)把n个代表数据集进行两两组合,将相似度阈值设为T;5-2)对于每一个组合,针对其每一个数据特征进行相似度分析,计算其相似度,对满足相似度阈值的数据按其特征进行组合,进行高一维度分析,直到所有结果都不满足相似度阈值;5-3)用百分制的方法对每个数据特征的相似程度进行计分,形成相似度数值表。进一步,步骤5-2)所述的相似度分析的具体方法为:5-2-1)一维相似度分析:每次选取一个数据特征进行相似度分析,计算其欧氏距离,并统计得分,判断是否所有结果都大于阈值T,若不是则转入步骤5-2-2),若是则转入步骤5-2-5);5-2-2)二维相似度分析:从一维相似度分析的结果中选取小于阈值T的数据特征,每次选取两个数据特征进行相似度分析,计算其欧氏距离,并统计得分,判断是否所有结果都大于阈值T,若不是则转入步骤5-2-3),若是则转入步骤5-2-5);5-2-3)高一维相似度分析:从上一维度相似度分析的结果中选取小于阈值T的数据特征,每次选取两个数据特征进行相似度分析,计算其欧氏距离;5-2-4)判断是否所有结果都大于阈值T,若不是则转入步骤5-2-3),若是则转入步骤5-2-5);5-2-5)计算欧几里得距离来衡量相似度,计算公式为其中,d为采取特征的维度;当L<T时,判定为相似,当L>T时,判定为不相似,得分记为由于采用了上述技术方案,本专利技术具有如下的优点:本专利技术通过对不同类别集的数据在不同的维度下,进行相似度分析,来找出各类别集之间存在的隐含联系,研究系统中产生不同运行状态的原因,以便于数据的挖掘、检索与分析,分析工况产生的原因。本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。附图说明本专利技术的附图说明如下。图1为本专利技术的流程示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明。S1:根据已有样本数据的特征X1、X2、...、Xm,设定n个类别集;S2:采集数据,去除野值点,并对数据进行归一化处理;S3:利用KNN的分类原理,计算实际数据点到各类别集之间的距离,把实际数据划分到距离最近的类别集中,经过多次分类后,形成n个数据集;S4:由于n个数据集中的每个数据都可反映本数据集的实际状态,因此,从每个数据集中抽取一组数据,作为该数据集的代表数据;S5:将n个代表数据进行两两组合,以其中一个组合为例,设共有10个数据特征,两组数据分别为A1=(0.22,0.56,0.52,0.15,0.75,0.14,0.88,0.44,0.77,0.92)A2=(0.75,0.51,0.58,0.49,0.61,0.21,0.75,0.02,0.29,0.81)这两组数据是从两个数据集中抽取的代表数据,是经过了预处理的数据。同时设置相似度阈值为T=0.15。首先进行一维相似度分析:利用欧式距离计算,得到L=(0.53,0.05,0.06,0.34,0.14,0.07,0.13,0.42,0.48,0.11)其中,满足相似度阈值T=0.15对应的特征为X2、X3、X6、X7、X10。并计算对应的相似度数值分别为:P一维=(P2,P3,P5,P6,P7,P10)=(66,60,6,53,13,26)。其次,进行二维相似度分析:对上述满足条件的特征进行两两组合,有种,为X2X3,X2X5,X2X6,X2X7,X2X10,X3X5,X3X6,X3X7,X3X10,X5X6,X5X7,X5X10,X6X7,X6X10,X7X10)利用欧式距离计算,得到L=(0.08,0.15,0.09,0.14,0.12,0.15,0.09,0.14,0.13,0.16,0.19,0.18,0.15,0.13,0.17)其中,满足相似度阈值T=0.15对应的特征为X2、X3、X6、X7、X10。并计算对应的相似度数值分别为:P二维=(P23,P26,P27,P210,P36,P37,P310,P610)=(46,40,6,20,40,6,13,13)。然后,进行三维相似度分析:在二维相似度分析的基础上,对满足相似度阈值的组合增加一个维度,为(X2X3X6,X2X3X7,X2X3X10,X2X6X7,X2X6X10,X2X7X10,X3X6X7,X3X6X10,X3X7X10)利用欧式距离计算,得到L=(0.1,0.15,0.13,0.16,0.14,0.18,0.16,0.14,0.18)。其中,满足相似度阈值T=0.15对应的特征为X2、X3、X6、X10。并计算对应的相似度数值分别为:P三维=(P236,P2310,P2610,P3610)=(33,13,6,6)。然后,进行四维相似度分析:在三维相似度分析的基础上,对满足相似度本文档来自技高网...

【技术保护点】
1.一种多类别集工业过程数据相似度多维度分析方法,其特征在于,具体步骤如下:1)根据已有样本数据,设定类别集;2)采集实际数据,并对实际数据进行预处理;3)对步骤2)处理后的实际数据,根据步骤1)设定的类别集进行分类,形成若干数据集;4)从步骤3)中的数据集抽取数据,标记数据来源,作为该类别集的代表数据;5)针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表;6)从步骤3)中的数据集重新抽取数据,标记数据来源,作为该类别集的新的代表数据,对该类别集中的新代表数据进行不同维度的相似度分析,形成新的相似度数值表。

【技术特征摘要】
1.一种多类别集工业过程数据相似度多维度分析方法,其特征在于,具体步骤如下:1)根据已有样本数据,设定类别集;2)采集实际数据,并对实际数据进行预处理;3)对步骤2)处理后的实际数据,根据步骤1)设定的类别集进行分类,形成若干数据集;4)从步骤3)中的数据集抽取数据,标记数据来源,作为该类别集的代表数据;5)针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表;6)从步骤3)中的数据集重新抽取数据,标记数据来源,作为该类别集的新的代表数据,对该类别集中的新代表数据进行不同维度的相似度分析,形成新的相似度数值表。2.如权利要求1所述的多类别集工业过程数据相似度多维度分析方法,其特征在于,步骤1)中所述设定类别集的具体方法为:1-1)根据工业过程数据的属性和特点,设定数据的特征Xm;1-2)利用监督学习算法,对样本数据按照数据特征进行训练分类得到n个类别集。3.如权利要求2所述的多类别集工业过程数据相似度多维度分析方法,其特征在于,步骤2)中所述对实际数据进行预处理的具体方法为:剔除掉野点数据,并进行归一化处理。4.如权利要求3所述的多类别集工业过程数据相似度多维度分析方法,其特征在于,步骤3)中所述形成若干数据集的具体方法为:将实际数据与n个类别集进行匹配,经过多次迭代后,形成n个数据集。5.如权利要求4所述的多类别集工业过程数据相似度多维度分析方法,其特征在于,步骤4)中所述抽取数据的具体方法为:利用随机抽样的方法,从每个数据集中随机抽取一组数据,标记数据所属数据集,作为该数据集的代表数据。6.如权利要求5所述...

【专利技术属性】
技术研发人员:陈新碧
申请(专利权)人:重庆沐信润喆网络科技有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1