一种基于数据降维过程中数据增强的方法技术

技术编号：29404097 阅读：17 留言：0更新日期：2021-07-23 22:42

本发明专利技术提供一种基于数据降维过程中数据增强的方法。主要应用于信息技术领域，所采用的技术方案是：首先，将数据集构建成为矩阵以便后续的数据处理操作。在运用CUR矩阵分解法对矩阵分别做行与列的选取时，采用PCA降维法提取矩阵行和列的特征向量，根据特征向量以及各个行和列向量的相关系数对相关性做出判断，从而能够选出代表性强的行和列来分别构造矩阵。同时，根据此发明专利技术所提供的方法还原得到的恢复矩阵与常规CUR得到的恢复矩阵相比，此方法得到的恢复矩阵与实际原矩阵的误差更小，降维结果更加精确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据降维过程中数据增强的方法
本专利技术涉及信息
，具体而言，涉及一种基于数据降维过程中数据增强的方法。
技术介绍
CUR分解方法是通过将一个矩阵分解为C、U和R三个矩阵使得当它们相乘时可以接近原矩阵来实现的。目前的特征选择方法是通过随机选择少量行列得到一个可以表示其特征的集合。通过该集合，可以对原始数据的特征进行还原估计，使特征易于解释且保留了数据的额外数据结构例如稀疏性或非负性。但是由于随机选择行列，所保留的特征并不一定是最显著的，因而使得矩阵还原误差较大。例外PCA主成分分析作为一种流行降维方式，主要通过将数据仅投影到前几个主要成分从而获取重构的正交特征，这相当于通过保留方差最多的维特征来保留尽可能多的数据变化，从而降低数据特征维度。然而，由于在PCA降维计算中进行了多次矩阵变换使得提取的主成分往往难以解释其物理意义。因此，为了在解决降维后物理意义缺失问题的同时进一步减少降维造成的数据损失，提高降维的准确性，本专利技术所提供的方法保留了数据矩阵中更具特征性的行和列，进而改善了传统的CUR矩阵分解法。
技术实现思路
针对以上问题，本专利技术提出了一种基于数据降维过程中数据增强的方法。本专利技术的降维方法解决其技术问题所采用的技术方案是：首先，将数据集构建成为矩阵以便后续的数据处理操作。在运用CUR矩阵分解法对矩阵分别做行与列的选取时，采用PCA降维法提取矩阵行和列的特征向量，根据特征向量以及各个行和列向量的相关系数对相关性做出判断，从而能够选出代表性强的行和列来分别构造矩...

【技术保护点】
1.一种基于数据降维过程中数据增强的方法，其特征在于：所述方法包括如下步骤：/n步骤一：将数据集构建成为矩阵，/n步骤二：对矩阵分别做行与列的选取，具体包含一下步骤：/nS1：本地读取数据并替换数据；/nS2：将最后一列日期舍弃，不用做降维过程；/nS3：将预处理好的数据集进行归一化并遵循PCA求最大特征值对应的特征向量的方法进行求值；/nS4：根据相关系数的公式，此公式是由数学公式定义的，我们基于数学公式写成了代码的形式来计算。定义一个求相关系数值的函数。所述公式为：/n

【技术特征摘要】
1.一种基于数据降维过程中数据增强的方法，其特征在于：所述方法包括如下步骤：
步骤一：将数据集构建成为矩阵，
步骤二：对矩阵分别做行与列的选取，具体包含一下步骤：
S1：本地读取数据并替换数据；
S2：将最后一列日期舍弃，不用做降维过程；
S3：将预处理好的数据集进行归一化并遵循PCA求最大特征值对应的特征向量的方法进行求值；
S4：根据相关系数的公式，此公式是由数学公式定义的，我们基于数学公式写成了代码的形式来计算。定义一个求相关系数值的函数。所述公式为：

S5：计算出每一列的相关系数和对应的索引并用一个字典将结果存起来；
S6：将字典根据系数的大小进行从大到小的排序；
S7：选取相关系数>＝0.4的列并将对应的索引存下来到原矩阵中选出这251列；
S8：计算每一行的影响力分数。选行的影响力分数阈值设置的是>＝0.0004的行；
S9：筛选索引得到交叉矩阵，所述筛选索引由行和列配对筛选而出。
步骤三：对所述的交叉矩阵做SVD分解，分解后得奇异值矩阵，
步骤四：对所述的奇异值矩阵求其广义逆矩阵,计算出降维后的矩阵，
步骤五：对所述的降维后的矩阵做矩阵乘法，还原出估计的原矩阵并与实际的原矩阵做误差对比。

2.根据权利要求1所述的一种基于数据降维过程中数据增强的方法，其特征在于：
所述列选择方法,包含以下步骤：
S1：将原矩阵Am*n标准化后求其对应的协方差矩阵Cov(A)，
S2：计算此协方差矩阵Cov(A)的特征值λi和特征向量ei，选取最大特征值λ所对应的特征向量e，
S3：计算上一步中得到的特征向量...

【专利技术属性】
技术研发人员：骆宗伟，周梓睿，马思嘉，侯彦丞，
申请(专利权)人：北京师范大学珠海校区，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人