一种能有效减小一致属性数据开销的算法制造技术

技术编号:32972403 阅读:12 留言:0更新日期:2022-04-09 11:41
本发明专利技术公开了一种能有效减小一致属性数据开销的算法,该方法用于对存在大量一致决策属性的数据进行处理,其通过将决策属性值划分成多种类型信息,之后以该多种类型信息组成决策信息系统的初始集,并以该决策信息系统的初始集构造成差别矩阵,利用决策属性提取差别矩阵中的关键信息,选取差别矩阵中频率较大的属性作为候选属性,其中候选属性集合为不重复集合,且每个候选属性都是一个不可再分解的属性数据;将候选属性作为锚点,对差别矩阵进行转换,得出基于关键属性的转换矩阵,实现减小数据开销;本发明专利技术在存过数据存在大量的一致决策属性时,对决策属性进行有效的处理,达到简化数据集的目的。数据集的目的。

【技术实现步骤摘要】
一种能有效减小一致属性数据开销的算法


[0001]本专利技术涉及一种能有效减小一致属性数据开销的算法,属于数据处理


技术介绍

[0002]近几年来,随着数据挖掘、机器学习及大数据等领域的发展,如何高速有效的处理数据信息,成为一个商业价值很高的方向,粗糙集理论是一种能有效处理不一致、不完备和不精确信息的数学知识,在一些数据处理方向得到广泛的应用。
[0003]粗糙集理论作为知识约简的一个分支,其常用算法有:基于正区域模型的知识约简算法、基于差别矩阵模型的知识约简算法、基于信息熵模型的知识约简算法。常用的利用差别矩阵简化数据的方法,首先需要对矩阵进行改造,将内核属性作为差别矩阵的初始集,通过迭代求解出其中频率最大的属性作为候选集,该方法在遇到属性有一致的情况下将无法简化,并且算法的时间复杂度随着数据集的增大而快速的增加,存储空间也无法进行有效的优化。
[0004]即,现需要一种能有效减小一致属性数据开销的算法,在存过数据存在大量的一致决策属性时,对决策属性进行有效的处理,达到简化数据集的目的。

技术实现思路

[0005]有鉴于此,本专利技术的目的是提供一种能有效减小一致属性数据开销的算法,在存过数据存在大量的一致决策属性时,对决策属性进行有效的处理,达到简化数据集的目的;可以克服现有技术的不足。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]与现有技术比较,本专利技术公开了一种能有效减小一致属性数据开销的算法,该方法用于对存在大量一致决策属性的数据进行处理,其通过将决策属性值划分成多种类型信息,之后以该多种类型信息组成决策信息系统的初始集,并以该决策信息系统的初始集构造成差别矩阵,利用决策属性提取差别矩阵中的关键信息,选取差别矩阵中频率较大的属性作为候选属性,其中候选属性集合为不重复集合,且每个候选属性都是一个不可再分解的属性数据;将候选属性作为锚点,对差别矩阵进行转换,得出基于关键属性的转换矩阵,实现减小数据开销。
[0008]上述决策信息系统的初始集表示为S=(U,C,D,V,f);
[0009]其中,U={x1,x2,

x
|u|
}表示对象的有限集;C表示条件属性集;D表示决策属性集;f表示为信息函数U
×
C∪D

V,即对于 x∈U,存在f(x,a)∈V
a

[0010]上述决策信息系统中的每个属性子集是一个不可再分的关系,即等价关系,IND(P)可将决策信息划分成等价类,简记为U/P。
[0011]上述决策信息系统中的每个属性子集与分类对应,即:条件属性集形成的划分称为条件类,由决策属性集形成的划分称为决策类。
[0012]上述的将候选属性作为锚点,对差别矩阵进行转换,得出基于关键属性的转换矩阵时,计算差别矩阵M中各属性的频率f(c
k
);选择满足属性的若存在多个满足的属性,则任选取一个;将差别句子M内含属性c
i
的矩阵元素剔除,最终得到简化后的决策矩阵。
[0013]本专利技术的有益效果是:
[0014]1、本专利技术通过将决策信息系统中的决策属性值的划分成了多种类型,之后对决策信息进行转换和改造,通过找出矩阵的关键属性,将矩阵进行转化,从而有效降低了空值元素带来的存储开销和计算开销。
[0015]2、通过该方法,当存过数据存在大量的一致决策属性时,对决策属性进行有效的处理,达到简化数据集的目的。
[0016]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0017]无
具体实施方式
[0018]以下对本专利技术的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本专利技术,而不是为了限制本专利技术的保护范围。
[0019]本专利技术公开的一种能有效减小一致属性数据开销的算法,其特征在于,该方法用于对存在大量一致决策属性的数据进行处理,其通过将决策属性值划分成多种类型信息,之后以该多种类型信息组成决策信息系统的初始集,并以该决策信息系统的初始集构造成差别矩阵,利用决策属性提取差别矩阵中的关键信息,选取差别矩阵中频率较大的属性作为候选属性,其中候选属性集合为不重复集合,且每个候选属性都是一个不可再分解的属性数据,在选取差别矩阵时应考虑属性抽取重复;故需要在计算前后消除掉数据中的包涵关系,消除包涵关系后的差别矩阵才能实现真正意义上的对于属性的频率统计;将候选属性作为锚点,对差别矩阵进行转换,得出基于关键属性的转换矩阵,实现减小数据开销,这样,运用了频率较大的属性作为候选关键属性,从而有效的降低了大量重复属性带来的空间占用较大的问题。
[0020]决策信息系统的初始集表示为S=(U,C,D,V,f);其中,U={x1,x2,

x
|u|
} 表示对象的有限集;C表示条件属性集;D表示决策属性集;f 表示为信息函数U
×
C∪D

V,即对于x∈U,存在f(x,a)∈V
a

[0021]上述决策信息系统中的每个属性子集是一个不可再分的关系,即等价关系,IND(P)可将决策信息划分成等价类,简记为U/P。
[0022]上述决策信息系统中的每个属性子集与分类对应,即:条件属性集形成的划分称为条件类,由决策属性集形成的划分称为决策类。
[0023]在将候选属性作为锚点,对差别矩阵进行转换,得出基于关键属性的转换矩阵时,计算差别矩阵M中各属性的频率f(c
k
);选择满足属性的若存在多个满足的属性,则任选取一个;将差别矩阵 M内含属性c
i
的矩阵元素剔除,最终得到简化后的决策矩阵,其中,表示:可通过属性c
k
和属性集C求解知识简约矩阵Red;c
i
表示候选属性。
[0024]更为具体的步骤为,实施步骤S1.选取一张数据表,提取数据表中两两不同的元素属性,转化为差别矩阵;实施步骤S2.在实施步骤S1差别矩阵中,选取差别矩阵中属性频率较高的元素作为决策分类;实施步骤S3.在实施步骤S2中计算出相应的决策分类后,构造出所有决策分类的决策表;实施步骤S4.得出实施步骤S1中差别矩阵和实施步骤S3决策表后,利用决策表对差别矩阵进行知识简约,最终输出知识简约后的表,以下为压缩前的差别矩阵和压缩后的差别矩阵;
[0025][0026]表1、压缩前的差别矩阵
[0027]Ux1x2x1{c2,c3,c4}{c3,c4}x2{c3,c4}{c1,c3,c4}
[0028]表2、压缩后的差别矩阵
[0029]由上述表1和表2,可以看出,通过该方法有效减小一致属性数据开销,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种能有效减小一致属性数据开销的算法,其特征在于,该方法用于对存在大量一致决策属性的数据进行处理,其通过将决策属性值划分成多种类型信息,之后以该多种类型信息组成决策信息系统的初始集,并以该决策信息系统的初始集构造成差别矩阵,利用决策属性提取差别矩阵中的关键信息,选取差别矩阵中频率较大的属性作为候选属性,其中候选属性集合为不重复集合,且每个候选属性都是一个不可再分解的属性数据;将候选属性作为锚点,对差别矩阵进行转换,得出基于关键属性的转换矩阵,实现减小数据开销。2.根据权利要求1所述的能有效减小一致属性数据开销的算法,其特征在于:决策信息系统的初始集表示为S=(U,C,D,V,f);其中,U={x1,x2,

x
|u|
}表示对象的有限集;C表示条件属性集;D表示决策属性集;f表示为信息函数U
×
C∪D

【专利技术属性】
技术研发人员:漆国强
申请(专利权)人:世纪恒通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1