一种离散数据集冗余特征约减的数据融合方法技术

技术编号:20546644 阅读:56 留言:0更新日期:2019-03-09 19:33
本发明专利技术公开了一种离散数据集冗余特征约减的数据融合方法,属于数据融合分析领域。本发明专利技术首先对数据集在各单独属性以及在决策属性、条件属性下的分类结果进行计算分析,判断离散数据集是否具有约减融合的潜力;然后计算离散数据集的核属性集及依据核属性的分类结果并进行双向的约减过程,进而得到离散数据集的最小属性集,实现离散数据集的特征约减与融合。在特征约减融合过程中,相对于经典粗糙集理论方法,体现了高效的分工沟通机制,缩短了数据集最小约减过程的计算时间。本发明专利技术提供的这种数据集融合方法可以应用在多种类型的离散数据集属性约减过程中,能有效减小数据集属性约减的时间开销。

A Data Fusion Method for Reducing Redundant Features in Discrete Data Sets

The invention discloses a data fusion method for redundant feature reduction of discrete data sets, which belongs to the field of data fusion analysis. The present invention first calculates and analyses the classification results of data sets under individual attributes and decision attributes and condition attributes to determine whether the discrete data sets have the potential of reduction fusion; then calculates the core attributes set of the discrete data sets and the classification results based on the core attributes and carries out two-way reduction process, and then obtains the minimum attributes set of the discrete data sets and realizes the discrete number. Feature reduction and fusion of data sets. In the process of feature reduction fusion, compared with the classical rough set theory, it embodies the efficient division of labor and communication mechanism, and shortens the computing time of the minimum reduction process of data sets. The data set fusion method provided by the invention can be applied to attribute reduction of various types of discrete data sets, and can effectively reduce the time cost of attribute reduction of data sets.

【技术实现步骤摘要】
一种离散数据集冗余特征约减的数据融合方法
本专利技术属于数据融合分析领域,更具体地,涉及一种离散数据集冗余特征约减的数据融合方法。
技术介绍
随着经济和社会的快速发展,各行各业经过一定时间的累积,都拥有了规模可观的行业数据,大数据分析已成为重要的进步手段。然而面对如此庞大的数据量,要从中找出有用的信息是十分困难的,需要运用相关的数据分析方法,在一定程度上对原有数据集进行约减融合,提升原有数据集的信息密度,对实际的生产生活提供指导。粗糙集理论于1982年由波兰学者Pawlak首次提出。它可以在无需任何先验知识前提下,从一种全新的视角审视知识,通过知识约简,获得问题的决策或分类规则从而建立起知识与分类的联系,达到处理不确定、不完备等数据的目的。传统的粗糙集理论在数据融合中的应用受到其计算速度的限制:其约减方式是沿着属性个数由多到少的方向进行的,且一般都不考虑重要的核属性的限制,使得需要遍历的属性组合数目过多,计算的能力又相对不足,从而使得计算时长常常无法忍受。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种离散数据集冗余特征约减的数据融合方法,由此解决现有技术存在的计算能力不足,计算时间过长的技术问题。为实现上述目的,本专利技术的一个方面,提供了一种离散数据集冗余特征约减的数据融合方法,包括:(1)对待融合的离散数据集按照属性集中的每个属性进行分类,得到分类结果S;(2)所述属性集包括条件属性集和决策属性集,根据分类结果S,计算按照条件属性集进行分类的第一分类结果U/C和按照决策属性集进行分类的第二分类结果U/D;(3)当第一分类结果U/C对第二分类结果U/D的上下近似相同时,计算第一分类结果U/C依次去除条件属性集中的一个条件属性后的第三分类结果,当第三分类结果不能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为核属性集core,根据核属性集core得到核属性分类结果core_set,当第三分类结果能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为非核属性集;(4)计算核属性分类结果core_set对第二分类结果U/D的上下近似是否相同,若相同则待融合的离散数据集的最小属性集RED=core,否则进入步骤(5);(5)若非核属性集中非核条件属性的个数小于2,则待融合的离散数据集的最小属性集RED为条件属性集,否则同时对非核属性集进行正向约减与逆向约减,得到最终的待融合的离散数据集的最小属性集RED。进一步地,步骤(3)还包括:当第一分类结果U/C对第二分类结果U/D的上下近似不相同时,待融合的离散数据集的最小属性集RED为空集。进一步地,步骤(5)中同时对非核属性集进行正向约减与逆向约减的具体实现方式包括:(5-1)设置正、逆向约减停止标志以及相邻位置标志f_stop、r_stop和near_flag为0;(5-2)正向约减从非核属性集中按顺序选择第一个非核条件属性作为第一组合开始,依次增加第一组合中非核条件属性个数,并且记录第一组合中非核条件属性个数为i_f,将第一组合与核属性集core结合后计算分类结果,而逆向约减从非核属性集中选择所有的非核条件属性作为第二组合开始,依次减少第二组合中非核条件属性个数,并且记录剩余的非核条件属性个数为i_r,将第二组合与核属性集core结合后计算分类结果;(5-3)若i_f和i_r不相邻,相邻位置标志near_flag保持为0不变;(5-4)若i_f和i_r相邻,则相邻位置标志near_flag为1。进一步地,步骤(5-3)包括:(5-3-1)若i_f和i_r不相邻,相邻位置标志near_flag保持为0不变,对于逆向约减过程,在逆向约减停止标志r_stop不为1的情况下,若在逆向约减过程中出现能区分U/D的第二组合,则记录当前非核条件属性个数i_r和第二组合编号位置no_r,之后在第二组合中按顺序减少一个非核条件属性,进入i_r-1个非核条件属性的第二组合的循环中;(5-3-2)若逆向约减过程中发现遍历第二组合后不能区分U/D且r_stop仍然为0,则暂停当前逆向约减过程,设置正向约减停止标志f_stop为1以停止正向约减过程;(5-3-3)对于正向约减过程,在正向约减停止标志f_stop标志不为1的前提下,若在正向约减过程中出现能区分U/D的第一组合,则暂停当前正向约减过程,记录当前非核条件属性个数i_f的值以及相应的第一组合编号no_f,同时设置r_stop标志为1以停止逆向约减过程。进一步地,步骤(5-4)包括:(5-4-1)若i_f和i_r相邻,则相邻位置标志near_flag为1,对于逆向约减过程,在逆向约减过程停止标志r_stop仍为0且正向约减等待标志wait不为1的情况下,若有可区分U/D的第二组合,记录当前的第二组合编号no_r并添加该第二组合至R_RED中,继续进行当前的逆向约减过程直至步骤(5-2)得到的所有第二组合全部遍历完成或者逆向约减过程停止标志r_stop标志变为1;(5-4-2)若步骤(5-4-1)遍历完成后R_RED非空,则逆向约减过程中判断正向约减等待标志wait标志是否为1,当wait标志为1,将正向约减过程停止标志f_stop设置为1并且RED即为R_RED,否则当正向约减过程中出现可区分U/D的第一组合将r_stop设置为1从而停止当前的逆向约减过程;(5-4-3)逆向约减过程中,若逆向约减过程停止标志r_stop不为1且遍历完步骤(5-2)得到的所有第二组合后无法区分U/D,停止当前的正逆向约减过程,将正向约减过程停止标志f_stop设置为1;(5-4-4)逆向约减过程中,若逆向约减过程停止标志r_stop不为1且正向约减等待标志wait为1,则当逆向约减过程中找到最小约减,就记录当前的第二组合的i_r和第二组合编号no_r,并停止当前正逆向约减过程,f_stop标志置1;(5-4-5)正向约减过程中,在正向约减过程停止标志f_stop不为1的情况下,若搜索到一个能区分U/D的第一组合,则记录当前的第一组合位置编号,并停止当前的逆向约减过程,并将r_stop设置为1;(5-4-6)正向约减过程中,在正向约减过程停止标志f_stop不为1的情况下,若遍历完第一组合无法区分U/D,则应停止当前正向约减过程,置等待标志wait为1。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:本专利技术首先对数据集在各单独属性以及在决策属性、条件属性下的分类结果进行计算分析,然后计算离散数据集的核属性集及依据核属性的分类结果并进行双向的约减过程,进而得到离散数据集的最小属性集,实现离散数据集的特征约减与融合。在特征约减融合过程中,相对于经典粗糙集理论方法,体现了高效的分工沟通机制,缩短了数据集最小约减过程的计算时间。本专利技术提供的这种数据集融合方法可以应用在多种类型的离散数据集属性约减过程中,能有效减小数据集属性约减的时间开销。附图说明图1为本专利技术实施例提供的离散数据集上下近似、正域、负域、边界域的关系图;图2为本专利技术实施例提供的离散数据集冗余特征约减的数据融合方法的原理图;图3为本专利技术实施例提供的离散数据集冗余特征约减的数据融合方法的流程图本文档来自技高网...

【技术保护点】
1.一种离散数据集冗余特征约减的数据融合方法,其特征在于,包括:(1)对待融合的离散数据集按照属性集中的每个属性进行分类,得到分类结果S;(2)所述属性集包括条件属性集和决策属性集,根据分类结果S,计算按照条件属性集进行分类的第一分类结果U/C和按照决策属性集进行分类的第二分类结果U/D;(3)当第一分类结果U/C对第二分类结果U/D的上下近似相同时,计算第一分类结果U/C依次去除条件属性集中的一个条件属性后的第三分类结果,当第三分类结果不能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为核属性集core,根据核属性集core得到核属性分类结果core_set,当第三分类结果能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为非核属性集;(4)计算核属性分类结果core_set对第二分类结果U/D的上下近似是否相同,若相同则待融合的离散数据集的最小属性集RED=core,否则进入步骤(5);(5)若非核属性集中非核条件属性的个数小于2,则待融合的离散数据集的最小属性集RED为条件属性集,否则同时对非核属性集进行正向约减与逆向约减,得到最终的待融合的离散数据集的最小属性集RED。...

【技术特征摘要】
1.一种离散数据集冗余特征约减的数据融合方法,其特征在于,包括:(1)对待融合的离散数据集按照属性集中的每个属性进行分类,得到分类结果S;(2)所述属性集包括条件属性集和决策属性集,根据分类结果S,计算按照条件属性集进行分类的第一分类结果U/C和按照决策属性集进行分类的第二分类结果U/D;(3)当第一分类结果U/C对第二分类结果U/D的上下近似相同时,计算第一分类结果U/C依次去除条件属性集中的一个条件属性后的第三分类结果,当第三分类结果不能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为核属性集core,根据核属性集core得到核属性分类结果core_set,当第三分类结果能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为非核属性集;(4)计算核属性分类结果core_set对第二分类结果U/D的上下近似是否相同,若相同则待融合的离散数据集的最小属性集RED=core,否则进入步骤(5);(5)若非核属性集中非核条件属性的个数小于2,则待融合的离散数据集的最小属性集RED为条件属性集,否则同时对非核属性集进行正向约减与逆向约减,得到最终的待融合的离散数据集的最小属性集RED。2.如权利要求1所述的一种离散数据集冗余特征约减的数据融合方法,其特征在于,所述步骤(3)还包括:当第一分类结果U/C对第二分类结果U/D的上下近似不相同时,待融合的离散数据集的最小属性集RED为空集。3.如权利要求1或2所述的一种离散数据集冗余特征约减的数据融合方法,其特征在于,所述步骤(5)中同时对非核属性集进行正向约减与逆向约减的具体实现方式包括:(5-1)设置正、逆向约减停止标志以及相邻位置标志f_stop、r_stop和near_flag为0;(5-2)正向约减从非核属性集中按顺序选择第一个非核条件属性作为第一组合开始,依次增加第一组合中非核条件属性个数,并且记录第一组合中非核条件属性个数为i_f,将第一组合与核属性集core结合后计算分类结果,而逆向约减从非核属性集中选择所有的非核条件属性作为第二组合开始,依次减少第二组合中非核条件属性个数,并且记录剩余的非核条件属性个数为i_r,将第二组合与核属性集core结合后计算分类结果;(5-3)若i_f和i_r不相邻,相邻位置标志near_flag保持为0不变;(5-4)若i_f和i_r相邻,则相邻位置标志near_flag为1。4.如权利要求3所述的一种离散数据集冗余特征约减的数据融合方法,其特征在于,所述步骤(5-3)包括:(5-3-1)若i_f和i_r不相邻,相邻位置标志near_flag保持为0不变,对于逆向约减过程,在逆...

【专利技术属性】
技术研发人员:周建中刘英赵宇杰杜义刘涵李玲姜伟单亚辉李超顺田弟巍王齐飞
申请(专利权)人:国家电网有限公司国网新源控股有限公司湖北白莲河抽水蓄能有限公司华中科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1