基于Gap度量下的工业化工数据预处理的分类方法技术

技术编号:26479499 阅读:40 留言:0更新日期:2020-11-25 19:24
本发明专利技术公开了一种基于Gap度量下的工业化工数据预处理的分类方法。本发明专利技术的核心思想是将从工业化工系统采集到的Wine数据集构造成多维变量系统矩阵。然后通过Gap度量算法投影到黎曼球上,计算每个样本距离样本中心的Gap度量。变换后的数据矩阵再利用主成分分析(PCA)进行特征提取与降维,之后再运用机器学习中K近邻算法对降维后的数据进行分类。通过运用上述所提出方法进行仿真实现,具有较好的数据分类效果和分类准确率,从而验证了本发明专利技术的有效性。

【技术实现步骤摘要】
基于Gap度量下的工业化工数据预处理的分类方法
本专利技术属于工业化工领域,具体涉及一种基于Gap度量下的工业化工数据预处理的分类方法
技术介绍
近些年,随着信息物理系统技术和人工智能技术的快速发展,复杂的现代工业化工系统采集到的数据复杂度和精度也越来越高,从复杂系统中采集到的数据变量的相关性也越来越高,样本特征的维数和种类也越来越大,因此带来了维数“灾难”,因此在如何最大提取这些数据中的重要信息和将这些数据按照类别进行分类就显得愈来愈重要。在工业化工系统采集到的系统变量数据中,因为系统中各个变量的量纲并不相同,所以我们需要对原先数据进行标准化来消除量纲的的影响。在数据预处理过程中因为传统的标准化方法会忽视量纲对系统变量多样性的影响,几何角度成为均匀分布等问题。这就加大了数据压缩和特征提取的难度。较难提取信息量大的主元,所以对导致对数据分类的效果不太好。因此保持采集到的工业化工数据相关性和最大特征性是预处理方法的关键。
技术实现思路
为了针对传统数据预处理技术中的缺点和不足,本专利技术的目的是在Gap度量下数据预处理本文档来自技高网...

【技术保护点】
1.基于Gap度量下的工业化工数据预处理的分类方法,其特征在于该方法包括以下步骤:/n步骤1、数据预处理:/nX1步,将工业系统采集到的化工葡萄酒数据集构造成多维变量系统数据矩阵X

【技术特征摘要】
1.基于Gap度量下的工业化工数据预处理的分类方法,其特征在于该方法包括以下步骤:
步骤1、数据预处理:
X1步,将工业系统采集到的化工葡萄酒数据集构造成多维变量系统数据矩阵Xn;
X2步,设构造的样本数据矩阵Xn∈Rm×n如下



其中,行向量xi(j)=[x1(j)x2(j)…xm(j)]T,i=1,2,…,m,j=1,2,…,n表示不同类别的样本数据中的,列向量属于同一个类别,但是具有不同特征的数据;对数据集矩阵Xn进行均值化处理得到;



这里,lm=[1,1,…,1]T∈Rm×1,bn是Xn的各变量样本中心向量;
X3步,将数据矩阵Xn投影到黎曼球上,计算每个样本距离样本中心的Gap度量,Gap度量变换后的矩阵记为X*



其中Gap度量变换的公式如下




和表示两个实数xi(c),bn(c)在直径为1的黎曼球上的球面投影;
变换后的数据矩阵为
步骤2、PCA降维:
Y1步,利用变换后的数据矩阵X*,计算样本相关矩阵R



Y2步,求样本矩阵R的s个特征值和及其所对应的单位特征向量
求解R的特征方程
|R-λI|=0(7)
得到R的m个特征值
λ1≥λ2≥....≥λm
求方差贡献率达到预定值的主成分个数s,
通常s的取值使得累计方差贡献率达到规定的百分比以上;
Y3步,求前s个特征值对应的单位特征向量
ai=(a1i,a2i,...ami)T,i=1,2...

【专利技术属性】
技术研发人员:鲍中新文成林姚博
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1