一种小样本决策树分类器构造中的连续属性分割方法技术

技术编号:7641301 阅读:524 留言:0更新日期:2012-08-04 18:48
本发明专利技术涉及一种小样本决策树分类器构造中的连续属性分割方法,包括连续属性分割点数确定和分割位置优化两部分;首先由训练样本集,构造SVM分类面模型,确定其边界点,选择合理异类边界点对,并计算各合理异类边界点对连线上的分类面点;对于连续属性,根据所有分类面点的分类间隔分布确定连续分割点数和初始分割位置;根据所有分类面模型的分类面点,对于每个SVM分类面模型,计算属性分割面与该SVM分类面的逼近误差,并对所有SVM分类面的逼近误差进行融合,进而以逼近误差为目标优化连续属性分割位置;本发明专利技术的方法具有属性分割点数与位置选择快速准确等特点,可显著减少所构造决策树的大小,提高决策树的预测精度。

【技术实现步骤摘要】

本专利技术属于决策树构造
,涉及。
技术介绍
决策树分类器构造过程是属性选择、属性分割两种操作的迭代的过程,直至决策树的分类误差足够小。因此属性分割优化是决策树构造的关键和核心技术。属性分割可分为离散属性分割和连续属性分割,由于离散属性取有限值,若离散属性取值较少,则直接利用这些取值点进行分割,否则作为连续属性处理。因此如何处理连续属性分割问题一直是国内外共同关注的问题,也是制约所构造决策树性能的关键技术问题。自上世纪九十年代,决策树学习一直是国内外共同关注的研究热点。经过20多年的发展,出现了一批如C4. 5、CART、CHAID、SLIQ、PUBLIC等经典决策树分类器构造算法,提出了决策树分类器构造中连续属性分割等相关关键技术,有效地推动了决策树的应用,取得了显著的应用效果。深入分析现有的决策树构造方法可以看出,这些方法基本上都属于基于传统统计学的方法,属于基于经验风险最小化机器学习方法的范畴,只有在样本趋于无穷大时其性能才有理论上的保证。而在多数实际应用中,样本数目通常是有限的,这使很多方法都难于取得理想的效果。同时现有的决策树构法方法也存在有很多理论问题尚没有解决本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张德贤许伟涛于俊伟刘灿王洪群杨卫东李保利张苗梁义涛靳小波
申请(专利权)人:河南工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术