The invention discloses a data fusion method for redundant feature reduction of discrete data sets, which belongs to the field of data fusion analysis. The present invention first calculates and analyses the classification results of data sets under individual attributes and decision attributes and condition attributes to determine whether the discrete data sets have the potential of reduction fusion; then calculates the core attributes set of the discrete data sets and the classification results based on the core attributes and carries out two-way reduction process, and then obtains the minimum attributes set of the discrete data sets and realizes the discrete number. Feature reduction and fusion of data sets. In the process of feature reduction fusion, compared with the classical rough set theory, it embodies the efficient division of labor and communication mechanism, and shortens the computing time of the minimum reduction process of data sets. The data set fusion method provided by the invention can be applied to attribute reduction of various types of discrete data sets, and can effectively reduce the time cost of attribute reduction of data sets.
【技术实现步骤摘要】
一种离散数据集冗余特征约减的数据融合方法
本专利技术属于数据融合分析领域,更具体地,涉及一种离散数据集冗余特征约减的数据融合方法。
技术介绍
随着经济和社会的快速发展,各行各业经过一定时间的累积,都拥有了规模可观的行业数据,大数据分析已成为重要的进步手段。然而面对如此庞大的数据量,要从中找出有用的信息是十分困难的,需要运用相关的数据分析方法,在一定程度上对原有数据集进行约减融合,提升原有数据集的信息密度,对实际的生产生活提供指导。粗糙集理论于1982年由波兰学者Pawlak首次提出。它可以在无需任何先验知识前提下,从一种全新的视角审视知识,通过知识约简,获得问题的决策或分类规则从而建立起知识与分类的联系,达到处理不确定、不完备等数据的目的。传统的粗糙集理论在数据融合中的应用受到其计算速度的限制:其约减方式是沿着属性个数由多到少的方向进行的,且一般都不考虑重要的核属性的限制,使得需要遍历的属性组合数目过多,计算的能力又相对不足,从而使得计算时长常常无法忍受。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种离散数据集冗余特征约减的数据融合方法,由此解决现有技术存在的计算能力不足,计算时间过长的技术问题。为实现上述目的,本专利技术的一个方面,提供了一种离散数据集冗余特征约减的数据融合方法,包括:(1)对待融合的离散数据集按照属性集中的每个属性进行分类,得到分类结果S;(2)所述属性集包括条件属性集和决策属性集,根据分类结果S,计算按照条件属性集进行分类的第一分类结果U/C和按照决策属性集进行分类的第二分类结果U/D;(3)当第一分类结果U/C对 ...
【技术保护点】
1.一种离散数据集冗余特征约减的数据融合方法,其特征在于,包括:(1)对待融合的离散数据集按照属性集中的每个属性进行分类,得到分类结果S;(2)所述属性集包括条件属性集和决策属性集,根据分类结果S,计算按照条件属性集进行分类的第一分类结果U/C和按照决策属性集进行分类的第二分类结果U/D;(3)当第一分类结果U/C对第二分类结果U/D的上下近似相同时,计算第一分类结果U/C依次去除条件属性集中的一个条件属性后的第三分类结果,当第三分类结果不能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为核属性集core,根据核属性集core得到核属性分类结果core_set,当第三分类结果能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为非核属性集;(4)计算核属性分类结果core_set对第二分类结果U/D的上下近似是否相同,若相同则待融合的离散数据集的最小属性集RED=core,否则进入步骤(5);(5)若非核属性集中非核条件属性的个数小于2,则待融合的离散数据集的最小属性集RED为条件属性集,否则同时对非核属性集进行正向约减与逆向约减,得 ...
【技术特征摘要】
1.一种离散数据集冗余特征约减的数据融合方法,其特征在于,包括:(1)对待融合的离散数据集按照属性集中的每个属性进行分类,得到分类结果S;(2)所述属性集包括条件属性集和决策属性集,根据分类结果S,计算按照条件属性集进行分类的第一分类结果U/C和按照决策属性集进行分类的第二分类结果U/D;(3)当第一分类结果U/C对第二分类结果U/D的上下近似相同时,计算第一分类结果U/C依次去除条件属性集中的一个条件属性后的第三分类结果,当第三分类结果不能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为核属性集core,根据核属性集core得到核属性分类结果core_set,当第三分类结果能实现对第二分类结果U/D的完整描述时,将第三分类结果对应的去除的条件属性作为非核属性集;(4)计算核属性分类结果core_set对第二分类结果U/D的上下近似是否相同,若相同则待融合的离散数据集的最小属性集RED=core,否则进入步骤(5);(5)若非核属性集中非核条件属性的个数小于2,则待融合的离散数据集的最小属性集RED为条件属性集,否则同时对非核属性集进行正向约减与逆向约减,得到最终的待融合的离散数据集的最小属性集RED。2.如权利要求1所述的一种离散数据集冗余特征约减的数据融合方法,其特征在于,所述步骤(3)还包括:当第一分类结果U/C对第二分类结果U/D的上下近似不相同时,待融合的离散数据集的最小属性集RED为空集。3.如权利要求1或2所述的一种离散数据集冗余特征约减的数据融合方法,其特征在于,所述步骤(5)中同时对非核属性集进行正向约减与逆向约减的具体实现方式包括:(5-1)设置正、逆向约减停止标志以及相邻位置标志f_stop、r_stop和near_flag为0;(5-2)正向约减从非核属性集中按顺序选择第一个非核条件属性作为第一组合开始,依次增加第一组合中非核条件属性个数,并且记录第一组合中非核条件属性个数为i_f,将第一组合与核属性集core结合后计算分类结果,而逆向约减从非核属性集中选择所有的非核条件属性作为第二组合开始,依次减少第二组合中非核条件属性个数,并且记录剩余的非核条件属性个数为i_r,将第二组合与核属性集core结合后计算分类结果;(5-3)若i_f和i_r不相邻,相邻位置标志near_flag保持为0不变;(5-4)若i_f和i_r相邻,则相邻位置标志near_flag为1。4.如权利要求3所述的一种离散数据集冗余特征约减的数据融合方法,其特征在于,所述步骤(5-3)包括:(5-3-1)若i_f和i_r不相邻,相邻位置标志near_flag保持为0不变,对于逆向约减过程,在逆...
【专利技术属性】
技术研发人员:周建中,刘英,赵宇杰,杜义,刘涵,李玲,姜伟,单亚辉,李超顺,田弟巍,王齐飞,
申请(专利权)人:国家电网有限公司,国网新源控股有限公司,湖北白莲河抽水蓄能有限公司,华中科技大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。