The invention provides a data reduction method of decision table, the method includes: Step 1, determine the decision table data from the last condition if the property is core attributes of decision table, if the attribute data add to the reduction set R, step 2; or delete the last column attribute data, re execution step 1; step 2, column data the core attributes of decision table corresponding to the first column, determined to meet the end conditions, the output reduction set R, otherwise return to step 1. The invention has the advantages of simple and efficient reduction of decision table data.
【技术实现步骤摘要】
本专利技术涉及数据处理
,更具体地,涉及一种决策表数据约简方法。
技术介绍
目前,随着数据采集、存储技术的快速发展,数据冗余的问题越来越严重,它不仅极大地浪费存储空间,也会显著降低基于数据的建模、决策等算法的性能。粗糙集理论是一种专门约简数据、从数据中提取有效信息的理论。该理论的核心在于数据约简,通过将不重要的、冗余的数据以及属性删除,从而获得一个包含完整信息的精简的新数据集,为基于数据的分析、建模、决策等提供优质的源数据。传统的数据约简方法常采用基于属性重要度的启发式约简结构。其方案表述如下:步骤1,数据集预处理,并计算决策表核属性集;步骤2,计算每个属性的重要度;步骤3,挑选具有最大重要度的属性;步骤4,基于所有已挑选的属性修改数据集;步骤5,判断是否满足算法结束条件,如果满足则输出已挑选的属性集,否则跳到步骤2。传统启发式约简方法的特点在于需要计算属性重要度以及整个决策表核属性集。尤其是属性重要度的定义与计算吸引了很多研究者的注意,并取得了大量的成果。然而,这种传统的启发式约简结构存在一些不足,主要表现在:第一,重要度计算次数太多,步骤2会被执行多次,大部分属性的都会被多次计算重要度,如果步骤4采用加法模式,则重要度需要计算(2|C|-|R|+1)*|R|/2次,如果步骤4采取减法模式,则重要度需要计算(|C|+|R|+1|)*(|C|-|R|)/2次,因此,不管属性重要度的计算公式是否简单,都需要浪费大量的时间;第二,基于属性重要度的随机性启发问题,现有的属性重要度计算方法都有可能产生多个具有最大重要度的属性,已有的解决办法常常在步骤3中进 ...
【技术保护点】
一种决策表数据约简方法,其特征在于,包括:步骤1,判断决策表数据集中最后一个条件属性是否为决策表核属性,如果是则将该属性的数据加入约简集R,执行步骤2;否则删除最后一列条件属性数据,重新执行步骤1;步骤2,将所述决策表核属性对应的列数据放到第一列,确定满足结束条件后,输出约简集R,否则返回步骤1。
【技术特征摘要】
1.一种决策表数据约简方法,其特征在于,包括:步骤1,判断决策表数据集中最后一个条件属性是否为决策表核属性,如果是则将该属性的数据加入约简集R,执行步骤2;否则删除最后一列条件属性数据,重新执行步骤1;步骤2,将所述决策表核属性对应的列数据放到第一列,确定满足结束条件后,输出约简集R,否则返回步骤1。2.如权利要求1所述的方法,其特征在于,所述步骤1前还包括:删除决策表数据集中重复样本;如决策表数据集不一致,则将决策表数据集中所有样本的决策值变为d0,所述d0比已有的最大决策值大1。3.如权利要求1所述的方法,其特征在于,所述步骤1前还包括:设置约简集4.如权利要求1所述的方法,其特征在于,所述步骤1中判断决策表数据集中最后一个条件属性是否为决策表核属性,包括:对决策表数...
【专利技术属性】
技术研发人员:尹林子,许雪梅,丁家峰,蒋昭辉,李乐,李靖,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。