当前位置: 首页 > 专利查询>中南大学专利>正文

一种决策表数据约简方法技术

技术编号:15241234 阅读:163 留言:0更新日期:2017-05-01 01:25
本发明专利技术提供一种决策表数据约简方法,所述方法包括:步骤1,判断决策表数据集中最后一个条件属性是否为决策表核属性,如果是则将该属性的数据加入约简集R,执行步骤2;否则删除最后一列条件属性数据,重新执行步骤1;步骤2,将所述决策表核属性对应的列数据放到第一列,确定满足结束条件后,输出约简集R,否则返回步骤1。本发明专利技术具有简单高效地对决策表数据进行约简的有益效果。

Data reduction method of decision table

The invention provides a data reduction method of decision table, the method includes: Step 1, determine the decision table data from the last condition if the property is core attributes of decision table, if the attribute data add to the reduction set R, step 2; or delete the last column attribute data, re execution step 1; step 2, column data the core attributes of decision table corresponding to the first column, determined to meet the end conditions, the output reduction set R, otherwise return to step 1. The invention has the advantages of simple and efficient reduction of decision table data.

【技术实现步骤摘要】

本专利技术涉及数据处理
,更具体地,涉及一种决策表数据约简方法
技术介绍
目前,随着数据采集、存储技术的快速发展,数据冗余的问题越来越严重,它不仅极大地浪费存储空间,也会显著降低基于数据的建模、决策等算法的性能。粗糙集理论是一种专门约简数据、从数据中提取有效信息的理论。该理论的核心在于数据约简,通过将不重要的、冗余的数据以及属性删除,从而获得一个包含完整信息的精简的新数据集,为基于数据的分析、建模、决策等提供优质的源数据。传统的数据约简方法常采用基于属性重要度的启发式约简结构。其方案表述如下:步骤1,数据集预处理,并计算决策表核属性集;步骤2,计算每个属性的重要度;步骤3,挑选具有最大重要度的属性;步骤4,基于所有已挑选的属性修改数据集;步骤5,判断是否满足算法结束条件,如果满足则输出已挑选的属性集,否则跳到步骤2。传统启发式约简方法的特点在于需要计算属性重要度以及整个决策表核属性集。尤其是属性重要度的定义与计算吸引了很多研究者的注意,并取得了大量的成果。然而,这种传统的启发式约简结构存在一些不足,主要表现在:第一,重要度计算次数太多,步骤2会被执行多次,大部分属性的都会被多次计算重要度,如果步骤4采用加法模式,则重要度需要计算(2|C|-|R|+1)*|R|/2次,如果步骤4采取减法模式,则重要度需要计算(|C|+|R|+1|)*(|C|-|R|)/2次,因此,不管属性重要度的计算公式是否简单,都需要浪费大量的时间;第二,基于属性重要度的随机性启发问题,现有的属性重要度计算方法都有可能产生多个具有最大重要度的属性,已有的解决办法常常在步骤3中进行随机选择,这将对属性约简的结果以及分类精度产生一个难以预知的影响。
技术实现思路
本专利技术为克服上述问题或者至少部分地解决上述问题,提供一种更简单的启发式约简结构,为高速约简算法设计提供结构层面的理论支持与实现方法。根据本专利技术的一个方面,提供一种决策表数据约简方法,包括:步骤1,判断决策表数据集中最后一个条件属性是否为决策表核属性,如果是则将该属性的数据加入约简集R,执行步骤2;否则删除最后一列条件属性数据,重新执行步骤1;步骤2,将所述决策表核属性对应的列数据放到第一列,确定满足结束条件后,输出约简集R,否则返回步骤1。本申请提出一种决策表数据约简方法,利用决策表核属性判断来代替传统的属性重要度计算;利用排序技术构建高效的决策表核属性判断算法以及正域计算算法;每个属性最多计算一次,要么保留,要么丢弃;在启发过程中会不断删除冗余的列数据,以减少后续启发过程的时间以及空间复杂度。具有如下有益效果:1、本专利技术克服了传统的基于属性重要度约简结构的缺陷。表现在:抛弃了传统的属性重要度概念,不需要设计重要度计算公式,也不存在属性启发的随机性问题,计算结果客观,可重复性好;2、本专利技术的方法结构简单。表现在:每个属性最多计算一次,而传统方法的属性需要多次计算;其次,本专利技术不需要在启发之前计算整个决策表核属性集;3、本专利技术的方法只涉及到排序与比较操作,计算简单,不仅在单机上易于实现,也适合在大数据平台上运行;4、本专利技术的方法计算速度快。通过采用本专利技术推荐的快速算法,可以快速计算一个完备的约简。附图说明图1为根据本专利技术实施例一种决策表数据约简方法的流程示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术主要针对决策表数据进行处理,表示为S=<U,At,{Va|a∈At本文档来自技高网
...

【技术保护点】
一种决策表数据约简方法,其特征在于,包括:步骤1,判断决策表数据集中最后一个条件属性是否为决策表核属性,如果是则将该属性的数据加入约简集R,执行步骤2;否则删除最后一列条件属性数据,重新执行步骤1;步骤2,将所述决策表核属性对应的列数据放到第一列,确定满足结束条件后,输出约简集R,否则返回步骤1。

【技术特征摘要】
1.一种决策表数据约简方法,其特征在于,包括:步骤1,判断决策表数据集中最后一个条件属性是否为决策表核属性,如果是则将该属性的数据加入约简集R,执行步骤2;否则删除最后一列条件属性数据,重新执行步骤1;步骤2,将所述决策表核属性对应的列数据放到第一列,确定满足结束条件后,输出约简集R,否则返回步骤1。2.如权利要求1所述的方法,其特征在于,所述步骤1前还包括:删除决策表数据集中重复样本;如决策表数据集不一致,则将决策表数据集中所有样本的决策值变为d0,所述d0比已有的最大决策值大1。3.如权利要求1所述的方法,其特征在于,所述步骤1前还包括:设置约简集4.如权利要求1所述的方法,其特征在于,所述步骤1中判断决策表数据集中最后一个条件属性是否为决策表核属性,包括:对决策表数...

【专利技术属性】
技术研发人员:尹林子许雪梅丁家峰蒋昭辉李乐李靖
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1