一种基于数据降维过程中数据增强的方法技术

技术编号:29404097 阅读:17 留言:0更新日期:2021-07-23 22:42
本发明专利技术提供一种基于数据降维过程中数据增强的方法。主要应用于信息技术领域,所采用的技术方案是:首先,将数据集构建成为矩阵以便后续的数据处理操作。在运用CUR矩阵分解法对矩阵分别做行与列的选取时,采用PCA降维法提取矩阵行和列的特征向量,根据特征向量以及各个行和列向量的相关系数对相关性做出判断,从而能够选出代表性强的行和列来分别构造矩阵。同时,根据此发明专利技术所提供的方法还原得到的恢复矩阵与常规CUR得到的恢复矩阵相比,此方法得到的恢复矩阵与实际原矩阵的误差更小,降维结果更加精确。

【技术实现步骤摘要】
一种基于数据降维过程中数据增强的方法
本专利技术涉及信息
,具体而言,涉及一种基于数据降维过程中数据增强的方法。
技术介绍
CUR分解方法是通过将一个矩阵分解为C、U和R三个矩阵使得当它们相乘时可以接近原矩阵来实现的。目前的特征选择方法是通过随机选择少量行列得到一个可以表示其特征的集合。通过该集合,可以对原始数据的特征进行还原估计,使特征易于解释且保留了数据的额外数据结构例如稀疏性或非负性。但是由于随机选择行列,所保留的特征并不一定是最显著的,因而使得矩阵还原误差较大。例外PCA主成分分析作为一种流行降维方式,主要通过将数据仅投影到前几个主要成分从而获取重构的正交特征,这相当于通过保留方差最多的维特征来保留尽可能多的数据变化,从而降低数据特征维度。然而,由于在PCA降维计算中进行了多次矩阵变换使得提取的主成分往往难以解释其物理意义。因此,为了在解决降维后物理意义缺失问题的同时进一步减少降维造成的数据损失,提高降维的准确性,本专利技术所提供的方法保留了数据矩阵中更具特征性的行和列,进而改善了传统的CUR矩阵分解法。
技术实现思路
针对以上问题,本专利技术提出了一种基于数据降维过程中数据增强的方法。本专利技术的降维方法解决其技术问题所采用的技术方案是:首先,将数据集构建成为矩阵以便后续的数据处理操作。在运用CUR矩阵分解法对矩阵分别做行与列的选取时,采用PCA降维法提取矩阵行和列的特征向量,根据特征向量以及各个行和列向量的相关系数对相关性做出判断,从而能够选出代表性强的行和列来分别构造矩阵。同时,根据此专利技术所提供的方法还原得到的恢复矩阵与常规CUR得到的恢复矩阵相比,此方法得到的恢复矩阵与实际原矩阵的误差更小,降维结果更加精确。本专利技术解决上述问题的技术方案是:一种基于数据降维过程中数据增强的方法,其特征在于:所述方法包括如下步骤:步骤一:将数据集构建成为矩阵,步骤二:对矩阵分别做行与列的选取,具体包含一下步骤:S1:本地读取数据并替换数据,S2:将最后一列日期舍弃,不用做降维过程;S3:将预处理好的数据集进行归一化并遵循PCA求最大特征值对应的特征向量的方法进行求值;S4:根据相关系数的公式,此公式是由数学公式定义的,我们基于数学公式写成了代码的形式来计算。定义一个求相关系数值的函数。所述公式为:S5:计算出每一列的相关系数和对应的索引并用一个字典将结果存起来;S6:将字典根据系数的大小进行从大到小的排序。S7:选取相关系数>=0.4的列并将对应的索引存下来到原矩阵中选出这251列;S8:计算每一行的影响力分数。选行的影响力分数阈值设置的是>=0.0004的行;S9:筛选索引得到交叉矩阵,所述筛选索引由行和列配对筛选而出。步骤三:对所述的交叉矩阵做SVD分解,分解后得奇异值矩阵,步骤四:对所述的奇异值矩阵求其广义逆矩阵,计算出降维后的矩阵。步骤五:对所述的降维后的矩阵做矩阵乘法,还原出估计的原矩阵并与实际的原矩阵做误差对比。进一步地,所述的一种基于数据降维过程中数据增强的方法,其特征在于:所述列选择方法,包含以下步骤:S1:将原矩阵Am*n标准化后求其对应的协方差矩阵Cov(A);S2:计算此协方差矩阵Cov(A)的特征值λi和特征向量ei,选取最大特征值λ所对应的特征向量e;S3:计算上一步中得到的特征向量e与矩阵每一个列向量的相关系数,选取前k个相.关系数值较大的列,从而得到具有代表性的特征列组成的低秩矩阵C。进一步地,所述行选择方法,包含以下步骤:S1:根据影响力分数的计算公式,其中aij是矩阵中元素的值,计算每一行的影响力分数;S2:计算上一步中得到的每一行的影响力分数,选取前k个影响力分数较大的列,次k个行被筛选出并组成了低秩矩阵R。进一步地,所述一种基于数据降维过程中数据增强的方法,其特征在于,所述“步骤三:对所述的交叉矩阵做SVD分解,分解后得奇异值矩阵”具体方法包含以下:对交叉矩阵W做SVD分解,分解之后可以得到W=U∑VT,4个矩阵,所述的奇异值矩阵为∑第二个矩阵。进一步地,所述一种基于数据降维过程中数据增强的方法,其特征在于,所述“步骤四:对所述的奇异值矩阵求其广义逆矩阵,计算出降维后的矩阵”具体方法包含以下:对所述的奇异值矩阵∑求其广义逆矩阵∑+,并得到降维数据矩阵U=Y×(∑+)2×XT;广义逆矩阵的元素为0则取0,广义逆矩阵的元素不为0则取其倒数。进一步地,所述一种基于数据降维过程中数据增强的方法,其特征在于,所述“步骤五:对所述的降维后的矩阵做矩阵乘法,还原出估计的原矩阵并与实际的原矩阵做误差对比具体方法包含以下:S1:使用CUR的计算公式,计算出降维后的矩阵U,U=Y×(∑+)2×XT;S2:继续求出我们估计出的原矩阵即S3:引入无穷范数计算原矩阵A与估计矩阵的误差,所述的公式方式为:本专利技术的优点:本专利技术是一种针对数据降维过程中数据增强的方法,可以在降维的过程中保证数据的可解释性以及特征性,且误差率较小,整体方法简洁方便。附图说明图1是本专利技术的系统流程图,图2是本专利技术行的选择示意图,图3是本专利技术列的选择示意图,图4是本专利技术CUR矩阵的分解与恢复图。具体实施方式为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。因此,以下对在附图中提供的本专利技术的实施方式的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。详细地,本专利技术以Netflix电影公司提供的观影顾客对电影评分的数据集为例,实现了一千名顾客对一千部电影评分的降维处理过程并且尽可能的保留了所有特征较高的物理信息。对于后续训练推荐系统的模型减少了大量的计算运行时间的同时也保证了模型的精度。包括以下步骤:1.数据集combined_data_1.txt文件是Kaggle中提供的一个Netflix电影评分的数据集,包含了从1到17770的电影ID序列。480189个观影客户用不同的客户ID表示。此外,评级是1到5的五星等级,日期的格式是YYYY-MM-DD。完成数据预处理后,数据集将输出为data.csv文件以供进一步使用。此data.csv文件包含四列,即电影ID、客户ID、评级和日期。由于文件大小大于495MB,矩阵有4499行×470758列,由于物理设备的硬件有限,本文档来自技高网...

【技术保护点】
1.一种基于数据降维过程中数据增强的方法,其特征在于:所述方法包括如下步骤:/n步骤一:将数据集构建成为矩阵,/n步骤二:对矩阵分别做行与列的选取,具体包含一下步骤:/nS1:本地读取数据并替换数据;/nS2:将最后一列日期舍弃,不用做降维过程;/nS3:将预处理好的数据集进行归一化并遵循PCA求最大特征值对应的特征向量的方法进行求值;/nS4:根据相关系数的公式,此公式是由数学公式定义的,我们基于数学公式写成了代码的形式来计算。定义一个求相关系数值的函数。所述公式为:/n

【技术特征摘要】
1.一种基于数据降维过程中数据增强的方法,其特征在于:所述方法包括如下步骤:
步骤一:将数据集构建成为矩阵,
步骤二:对矩阵分别做行与列的选取,具体包含一下步骤:
S1:本地读取数据并替换数据;
S2:将最后一列日期舍弃,不用做降维过程;
S3:将预处理好的数据集进行归一化并遵循PCA求最大特征值对应的特征向量的方法进行求值;
S4:根据相关系数的公式,此公式是由数学公式定义的,我们基于数学公式写成了代码的形式来计算。定义一个求相关系数值的函数。所述公式为:



S5:计算出每一列的相关系数和对应的索引并用一个字典将结果存起来;
S6:将字典根据系数的大小进行从大到小的排序;
S7:选取相关系数>=0.4的列并将对应的索引存下来到原矩阵中选出这251列;
S8:计算每一行的影响力分数。选行的影响力分数阈值设置的是>=0.0004的行;
S9:筛选索引得到交叉矩阵,所述筛选索引由行和列配对筛选而出。
步骤三:对所述的交叉矩阵做SVD分解,分解后得奇异值矩阵,
步骤四:对所述的奇异值矩阵求其广义逆矩阵,计算出降维后的矩阵,
步骤五:对所述的降维后的矩阵做矩阵乘法,还原出估计的原矩阵并与实际的原矩阵做误差对比。


2.根据权利要求1所述的一种基于数据降维过程中数据增强的方法,其特征在于:
所述列选择方法,包含以下步骤:
S1:将原矩阵Am*n标准化后求其对应的协方差矩阵Cov(A),
S2:计算此协方差矩阵Cov(A)的特征值λi和特征向量ei,选取最大特征值λ所对应的特征向量e,
S3:计算上一步中得到的特征向量...

【专利技术属性】
技术研发人员:骆宗伟周梓睿马思嘉侯彦丞
申请(专利权)人:北京师范大学珠海校区
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1