一种基于神经网络的数据降维方法技术

技术编号：40820179 阅读：5 留言：0更新日期：2024-03-28 19:38

本发明专利技术公开了一种基于神经网络的数据降维方法，涉及数据处理技术领域，该发明专利技术包括下述操作步骤：S1、高维数据集处理；S2、数据去噪；S3、构建数据降维神经网络；S4、降维输出和S5、数据加密。该发明专利技术通过低方差滤波对高维数据集进行预处理以消除低方差变量即含有无用信息的变量，再利用叠加去噪自编码器学习数据特征以剔除高维数据集中的无关属性，由此降低降维操作的计算量，以提高数据降维的速度，同时降维后的数据对其打乱分布进行保存，以防止内容被盗取，且利用编号记录数据正确坐标以便后期复原出正确分布的低维数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体为一种基于神经网络的数据降维方法。

技术介绍

1、数据降维又称维数约简，就是降低数据的维度，数据降维一方面可以解决“维数灾难”，缓解信息丰富、知识贫乏的现状，降低复杂度，维度灾难用来描述当空间维度增加时，分析和组织高维空间，因体积指数增加而遇到各种问题场景，另一方面可以更好地认识和理解数据。

2、现有数据降维方法在使用时由于高维数据中含有一定的无用变量其携带有无用信息，导致降维流程复杂化，且针对降维后的数据保密性不足，容易发生盗取。

3、有鉴于此，针对现有的结构及缺失予以研究改良，提出一种基于神经网络的数据降维方法。

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种基于神经网络的数据降维方法，解决了上述
技术介绍
中提出的问题。

2、为实现以上目的，本专利技术通过以下技术方案予以实现：一种基于神经网络的数据降维方法，所述基于神经网络的数据降维方法包括下述操作步骤：

3、s1、高维数据集处理：

4、获取高维数据集，并对该高维数据集进行归一化处理，再进行低方差滤波，以去除低方差变量；

5、s2、数据去噪：

6、通过叠加去噪自编码器对数据进行处理，其中叠加去噪自编码器学习数据特征并剔除高维数据集中的无关属性；

7、s3、构建数据降维神经网络：

8、构建用于数据降维的神经网络，先获得一个m×n的数据矩阵，再选择相应的核函数计算核矩阵，核矩阵计算公式如下：

9、

10、计算中心化后的核矩阵，即kl＝k-l*k/m-k*l/m+l*k*l/(m*m)(2)；

11、再计算kl的特征值λ1,λ2,......λn和对应的特征向量ν1,ν2,......νn；

12、对特征值按照降序排序展开，与此同时特征向量也随之改变，通过斯密特正交化方法得到单位正交化特征向量α1,α2,......αn；

13、确定主成分的个数

14、s4、降维输出：

15、最后计算主成分矩阵值：p＝kl*α，即获得降维后的数据；

16、s5、数据加密：

17、对降维后的数据加以编号化，每个编号对应一个数据，且编号记录有对应数据的坐标，对数据随机打乱分布后进行储存。

18、进一步的，所述s2步骤中，叠加去噪自编码器学习数据特征时能够通过蒙特卡洛搜索树对学习数据进行记录搜索。

19、进一步的，所述s3步骤中，m是高维数据集样本个数即，n是每个样本的特征。

20、进一步的，所述s3步骤中，核函数根据需求选取线性核函数、多项式核函数或高斯核函数中的一种，其中线性核函数能够解决线性可分问题，多项式核函数能够解决非线性问题。

21、进一步的，所述s3步骤中，公式(1)中0≤i,j≤m。

22、进一步的，所述s3步骤中，公式(2)中l是m×m的单位矩阵。

23、进一步的，所述s3步骤中，公式(3)中β的取值根据实际情况来定，一般不小于0.8。

24、进一步的，所述s5步骤中，编号为隐藏式设计，在编号记录数据及坐标后创建文件夹储存至物体隔绝的储存器中。

25、进一步的，所述编号文件夹名称与打乱分布后进行储存的数据文件夹名称一致。

26、进一步的，所述s5步骤中，如若需要查看正确的降维后的数据，则基于编号坐标将打乱分布后的数据按照坐标重新排列。

27、本专利技术提供了一种基于神经网络的数据降维方法，具备以下有益效果：

28、该基于神经网络的数据降维方法，通过低方差滤波对高维数据集进行预处理以消除低方差变量即含有无用信息的变量，再利用叠加去噪自编码器学习数据特征以剔除高维数据集中的无关属性，由此降低降维操作的计算量，以提高数据降维的速度，同时降维后的数据对其打乱分布进行保存，以防止内容被盗取，且利用编号记录数据正确坐标以便后期复原出正确分布的低维数据。

本文档来自技高网...

【技术保护点】

1.一种基于神经网络的数据降维方法，其特征在于：所述基于神经网络的数据降维方法包括下述操作步骤：

2.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述S2步骤中，叠加去噪自编码器学习数据特征时能够通过蒙特卡洛搜索树对学习数据进行记录搜索。

3.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述S3步骤中，m是高维数据集样本个数即，n是每个样本的特征。

4.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述S3步骤中，核函数根据需求选取线性核函数、多项式核函数或高斯核函数中的一种，其中线性核函数能够解决线性可分问题，多项式核函数能够解决非线性问题。

5.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述S3步骤中，公式(1)中0≤i,j≤m。

6.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述S3步骤中，公式(2)中l是m×m的单位矩阵。

7.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述S3步

8.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述S5步骤中，编号为隐藏式设计，在编号记录数据及坐标后创建文件夹储存至物体隔绝的储存器中。

9.根据权利要求8所述的一种基于神经网络的数据降维方法，其特征在于：所述编号文件夹名称与打乱分布后进行储存的数据文件夹名称一致。

10.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述S5步骤中，如若需要查看正确的降维后的数据，则基于编号坐标将打乱分布后的数据按照坐标重新排列。

...

【技术特征摘要】

1.一种基于神经网络的数据降维方法，其特征在于：所述基于神经网络的数据降维方法包括下述操作步骤：

2.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述s2步骤中，叠加去噪自编码器学习数据特征时能够通过蒙特卡洛搜索树对学习数据进行记录搜索。

3.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述s3步骤中，m是高维数据集样本个数即，n是每个样本的特征。

4.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述s3步骤中，核函数根据需求选取线性核函数、多项式核函数或高斯核函数中的一种，其中线性核函数能够解决线性可分问题，多项式核函数能够解决非线性问题。

5.根据权利要求1所述的一种基于神经网络的数据降维方法，其特征在于：所述s3步骤中，公式(1)中0≤i,j≤m。

...

【专利技术属性】
技术研发人员：庄卫华，王鑫，晁静，彭伟，顾婧怡，丁亚均，
申请(专利权)人：江苏瀚天智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人