一种结合森林优化和粗糙集的数据离散化方法技术

技术编号:21344329 阅读:21 留言:0更新日期:2019-06-13 22:46
本发明专利技术属于机器学习数据处理领域,具体涉及一种结合森林优化和粗糙集的数据离散化方法。本发明专利技术的目的在于克服传统连续属性离散化算法割裂属性之间关联的缺点,使用森林优化算法对基于粗糙集的离散化方法进行改进,提出一种搜索效率高、避免局部最优的结合森林优化和粗糙集的数据离散化方法,并将该方法应用在机器学习的数据预处理过程,本发明专利技术最大程度保留了数据集不同属性间的关联性,增强机器学习模型的记忆能力,克服传统离散化方法易陷入局部最优、割裂属性之间关联以及优化效率低等问题,是一种多维属性离散化方法,并应用其建立数据预处理模型,可在机器学习算法中使用,如C4.5分类器,可提高其分类、预测精度。

A Data Discretization Method Combining Forest Optimization and Rough Set

The invention belongs to the field of machine learning data processing, in particular to a data discretization method combining forest optimization and rough set. The object of the present invention is to overcome the disadvantage of the traditional continuous attribute discretization algorithm splitting the association between attributes. The forest optimization algorithm is used to improve the discretization method based on rough set, and a data discretization method combining forest optimization and rough set with high search efficiency and avoiding local optimum is proposed. The method is applied to the data preprocessing process of machine learning. The invention retains the relativity among different attributes of data set to the greatest extent, enhances the memory ability of machine learning model, overcomes the problems of traditional discretization methods such as easily falling into local optimum, association between split attributes and low optimization efficiency, and is a multi-dimensional attribute discretization method. It is applied to establish data preprocessing model, which can be used in machine learning algorithm, such as C4.5 classifier. It can improve the accuracy of classification and prediction.

【技术实现步骤摘要】
一种结合森林优化和粗糙集的数据离散化方法
本专利技术属于机器学习数据处理领域,具体涉及一种结合森林优化和粗糙集的数据离散化方法。
技术介绍
机器学习已成为当今人工智能领域研究的热点。多数机器学习算法仅适用于离散型数据,如决策树和贝叶斯网络。实际使用中,所获取数据集的属性多为连续型,需要对数据属性进行一定的离散化处理。利用离散化后的数据集进行算法学习时,结果精度会得到明显改善,算法的分类、预测性能显著提升。离散化方法分为监督离散化算法和无监督离散化算法。无监督离散化不考虑属性对应的类别信息,直接对属性离散化。例如等频率和等间距算法,效率高但精度差,使用较少。监督离散化算法主要有基于布尔逻辑和粗糙集理论的离散化算法、Chi2算法以及基于CAIM统计量的离散化算法等。该类算法利用属性的类别信息,计算复杂度高,但会获得较优离散化效果。其中基于布尔逻辑和粗糙集理论的离散化算法,复杂度呈指数级,无法实用。CAIM离散化算法利用CAIM统计量评价类别信息与属性间的依赖程度,选择CAIM值最大的断点为最优断点,但其只考虑了具有最多实例数的类别,忽略了其他类别信息。且常用的监督离散化算法多是单属性离散本文档来自技高网...

【技术保护点】
1.一种结合森林优化和粗糙集的数据离散化方法,其特征在于,该方法包括以下步骤:步骤1:计算候选断点集;步骤1.1:对数据集进行数据清洗,包括处理数据不平衡问题、缺失值问题;步骤1.2:利用粗糙集理论,对清洗过的数据进行属性化简;步骤1.3:筛选出化简后属性中的连续属性,利用变精度粗糙集理论,对其进行初步的属性值候选断点集划分;步骤2:适宜度函数评价断点;步骤2.1:利用变精度粗糙集得到依赖度和断点数目两个指标,设计适宜度评价函数;步骤2.2:计算当前断点集的β得到依赖度;步骤2.3:计算森林初始候选断点集的适宜度评价函数;步骤3:森林优化迭代;步骤3.1:将候选断点集映射成森林中每棵树,进行森...

【技术特征摘要】
1.一种结合森林优化和粗糙集的数据离散化方法,其特征在于,该方法包括以下步骤:步骤1:计算候选断点集;步骤1.1:对数据集进行数据清洗,包括处理数据不平衡问题、缺失值问题;步骤1.2:利用粗糙集理论,对清洗过的数据进行属性化简;步骤1.3:筛选出化简后属性中的连续属性,利用变精度粗糙集理论,对其进行初步的属性值候选断点集划分;步骤2:适宜度函数评价断点;步骤2.1:利用变精度粗糙集得到依赖度和断点数目两个指标,设计适宜度评价函数;步骤2.2:计算当前断点集的β得到依赖度;步骤2.3:计算森林初始候选断点集的适宜度评价函数;步骤3:森林优化迭代;步骤3.1:将候选断点集映射成森林中每棵树,进行森林优化编码;步骤3.2:初始化森林,预设参数;步骤3.3:森林就地传播,进行局部森林寻优步骤3.4:得到依赖度指导,更新森林每棵树的适宜度,对其进行评价,同时更新树的年龄参数;步骤3.5:形成、更新备选森林;步骤3.6:远处播种,进行全局森林寻优;步骤3.7:更新森林中每棵树的适宜度,并更新森林参数;步骤3.8:森林迭代次数G进行加1操作,若G≤Gmax,则执行步骤3.3;若反之,则执行步骤3.9;步骤3.9:计算森林中各树的适宜度,选取最大适宜度的树,即为最优树,将其反映射为最优断点集Eopt,最优断点集,即为本方法对连续属性离散化的最优结果。2.根据权利要求1所述的一种结合森林优化和粗糙集的数据离散化方法,其特征在于,步骤1.1所述的处理数据不平衡问题包括:首先分析正负样本比例,其次根据数据集的大小采用不同的采样方法处理,若数据量较充足,采取欠采样的方法,通过减少样本数据多的类的数量来平衡数据集;若数据量少,采取过采样的方法,通过增加数量少的类的数量来平衡数据集;步骤1.1所述的处理数据缺失值问题包括:采用K最近距离邻法,先根据欧式距离、相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据,加快后期模型的建立。3.根据权利要求1所述的一种结合森林优化和粗糙集的数据离散化方法,其特征在于,步骤1.3所述的变精度粗糙集中,一个信息系统表示为S=(U,A,V,f),其中,U是有限非空集合,称为论域;A是属性集合;Va表示属性a的值域;f:U×A→V是一个信息函数,即对a∈A,有f(x,a)∈Va;若属性集A被分为条件属性集B和决策属性集D,且满足A=B∪D,则称S=(U,A,V,f)为决策信息系统,即决策表;步骤1.3包括以下步骤:步骤1.3.1:对所有的连续条件属性,每个属性其值按照属性大小排序,依次计算每个属性断点集步骤1.3.2:计算全部连续属性的候选断点集Pcandidate。4.根据权利要求3所述的一种结合森林优化和粗糙集的数据离散化方法,其特征在于,步骤1.3.1所述每个属性断点集表示为下式:其中,步骤1.3.2所述全部连续属性的候选断点集Pcandidate表示为下式:其中,k最大取值为连续条件属性的个数。5.根据权利要求1所述的一种结合森...

【专利技术属性】
技术研发人员:徐东王鑫孟宇龙张子迎任龙关智允颜丙辉王敏
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1