当前位置: 首页 > 专利查询>昆明学院专利>正文

一种基于逆矩阵的冗余数据判别方法技术

技术编号:33657735 阅读:17 留言:0更新日期:2022-06-02 20:37
本发明专利技术公开了一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化后转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。该方法较之于传统的异常数据判别方法,把数据分析对象转化为矩阵形式,简单易操作,只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。简单明了。简单明了。

【技术实现步骤摘要】
一种基于逆矩阵的冗余数据判别方法


[0001]本专利技术涉及数据挖掘
,特别涉及一种基于逆矩阵的冗余数据判别方法。

技术介绍

[0002]随着大数据时代的到来,数据和信息的重要性越来越大。数据以视频、音频、图片、文字等方式形式存在,当前大数据时代的开拓性导致了数据存在冗余的现象。在对数据进行数据挖掘的过程中,实际并不需要所有的数据,排除冗余数据留下有价值的数据才是关键,这就需要进行“数据治理”。随着数据量的增大,如何快速地判别出数据堆里是否存在冗余数据也变得越来越难,寻求一种高效快速的冗余数据判别方法成为一种必然。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种基于逆矩阵的冗余数据判别方法,高效快速,以解决现有技术中导致的上述多项缺陷。
[0004]为实现上述目的,本专利技术提供以下的技术方案:一种基于逆矩阵的冗余数据判别方法,包括如下步骤:
[0005]1)把需要分析的数据对象数值化;
[0006]2)对数值化后的数据集转化成矩阵;
[0007]3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;
[0008]4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。
[0009]优选的,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为D,然后把D数值化。
[0010]优选的,所述步骤2)中,将D转化为数据集X,即,
[0011][0012]其中,X为m
×
n的多维数据。
[0013]优选的,所述步骤3)中,所述对矩阵X进行逆矩阵求解;
[0014]在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵X
a
,即增广矩阵,
[0015][0016]通过矩阵行列变换,看是否能够转化成矩阵X
b
,即,
[0017][0018]优选的,所述步骤4)中,假设特征数据集X中第a行与第b行存在冗余数据x
aj
和x
bj
,j=1,2,

n;由于存在冗余的数据,即数据不存在信息,x
aj
和x
bj
有一个数据无价值,即x
aj
或x
bj
元素可为0。X的增广矩阵X
a
中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到X
b
,从而可检测特征数据集中是否存在冗余数据;
[0019]根据X
b
存在与否,来判断X是否存在冗余数据:
[0020]如果X
b
存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
[0021]如果X
b
不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
[0022]采用以上技术方案的有益效果是:通过把需要判别是否存在冗余信息的数据转化为矩阵形式,简单易操作;只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。
附图说明
[0023]图1为本专利技术一种基于逆矩阵的冗余数据判别方法的流程图。
具体实施方式
[0024]下面详细说明本专利技术的优选实施方式。
[0025]根据图1所示,一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化,接着转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。
[0026]把“数据治理”中的需要分析的数据对象,首先在图片、文字、数据库中提取数据资源,记为D,然后把D数值化,转化为数据集X,即
[0027][0028]其中,X为m
×
n的多维数据。
[0029]然后,对矩阵X进行逆矩阵求解。在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵X
a
,即增广矩阵
[0030][0031]通过矩阵行列变换,看是否能够转化成矩阵X
b
,即
[0032][0033]假设特征数据集X中第a行与第b行存在冗余数据x
aj
和x
bj
,j=1,2,

n。由于存在冗余的数据,即数据不存在信息,x
aj
和x
bj
有一个数据无价值,即x
aj
或x
bj
元素可为0。X的增广矩阵X
a
中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到X
b
,从而可检测特征数据集中是否存在冗余数据。
[0034]根据X
b
存在与否,来判断X是否存在冗余数据:
[0035]如果X
b
存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
[0036]如果X
b
不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
[0037]下面结合具体的实施例对本专利技术做进一步的详细说明,所述是对本专利技术的解释而不是限定。这里以某专业某班级学生的成绩分数为例:
[0038]实例1:
[0039]假设该班3名同学的各科成绩如下表。
[0040]姓名高等数学大学英语数据结构张三969768李四899878王五658976
[0041]学生成绩表提取数据资源整合为数据集:
[0042]数据集X求逆增广矩阵为:
[0043]通过矩阵行列转换得出:
[0044]由此可得X1的逆矩阵:
[0045]结论:数据集X1可求出逆矩阵,即X
b
存在,说明X1中不存在冗余数据。
[0046]实例2:
[0047]假设该班3名同学的各科成绩如下表。
[0048]姓名高等数学大学英语数据结构张三969768李四899878张三969768
[0049]数据集为:
[0050]数据集X2求逆增广矩阵为:
[0051]此时,无法通过矩阵变换,得到X
b

[0052]结论:数据集X2求不出逆矩阵,即X
b
不存在,说明X2中存在冗余数据。从表格中可以看出,第一行和第三行数据是重复的。此时下一步应该对数据进行冗余处理。
[0053]以上所述的仅是本专利技术的优选实施方式,应当指出,对于本领域的普通技术人员来说,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逆矩阵的冗余数据判别方法,其特征在于,包括如下步骤:1)把需要分析的数据对象数值化;2)对数值化后的数据集转化成矩阵;3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。2.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为D,然后把D数值化。3.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤2)中,将D转化为数据集X,即,其中,X为m
×
n的多维数据。4.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤3)中,所述对矩阵X进行逆矩阵求解;在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵X
a
,即增广矩阵,通过矩阵行列变换,看是否能够转化成矩阵X
b
,...

【专利技术属性】
技术研发人员:邓飞李博雄何俊申时凯缪希松洪孙焱毛雄建张洪渊段红肖
申请(专利权)人:昆明学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1