一种基于凸边界的学习样本抽取方法技术

技术编号:17994522 阅读:55 留言:0更新日期:2018-05-19 11:42
本方法公开了一种基于凸边界的学习样本抽取方法。目标是提升智能分类系统的效率,减少机器学习训练样本的数量。本方法核心技术包括:第一、对用户给出的数据库的预切割技术,包括缺失值和异常值处理,以及数据集合的预切割工作;第二、类别集合的中心化,引入样本凸集合的概念,给出类别样本索引;第三、凸边界样本抽取,每个象限内,根据边界宽度抽取边界样本。此方法可以提升智能分类系统的机器学习性能。通过5类常用的数据分类算法在20个UCI数据库上的试验结果表明,通过边界样本的抽取方法得到的边界样本是有效的,在系统的准确率变化范围内,学习样本数量大幅减少,效率显著提升。

A learning sample extraction method based on convex boundary

This method discloses a learning sample extraction method based on convex boundary. The goal is to improve the efficiency of the intelligent classification system and reduce the number of training samples. The core techniques of this method include: first, pre cutting technology of database given by users, including missing value and exception value processing, and pre cutting work of data sets; second, centralization of class sets, introducing the concept of sample convex set, giving category sample index, third, sample extraction of convex boundary, each In the quadrant, boundary samples are extracted from the boundary width. This method can improve the machine learning performance of intelligent classification system. The results of 5 kinds of data classification algorithms on 20 UCI databases show that the boundary samples obtained by the method of boundary sample extraction are effective. The number of learning samples is greatly reduced and the efficiency is significantly improved in the range of the system accuracy.

【技术实现步骤摘要】
一种基于凸边界的学习样本抽取方法
本专利技术主要涉及人工智能技术,具体涉及一种基于凸边界的学习样本抽取方法。
技术介绍
随着大数据时代的来临,给数据驱动的各种智能系统的研究和设计带来了深刻的变化。尤其是人工智能的核心技术——机器学习,成为了研究的热点。而学习样本的质量,即学习样本中的缺失值、异常值、冗余样本、样本数量,都将严重影响到机器学习的性能,如何选择高质量的学习样本集合,成为一个关键的研究课题。在此问题的驱动下,本文的研究目标是提出有效地从原始数据库中抽取学习样本的新方法。学习样本的抽取技术是指对用于机器学习的学习样本进行主动选择的过程,是机器学习中一项必不可少的技术。学习样本的主动选择是选择有意义的样本,而采样,如常用的随机采样是选择代表性的样本,这二者之间是存在区别的。例如,在0-99之间有50个数据,这50个数据分布在0-49之间有1个数据0,50-99之间有49个数据。对于随机采样,数据0和其余49个数据被选择到的概率是相等,保证了样本的代表性;而对于样本抽取来说,是要选择有意义的样本,即如果数据0的存在对于原始数据集是有意义的,就要在抽取样本的过程中选择它,如果对于原本文档来自技高网...
一种基于凸边界的学习样本抽取方法

【技术保护点】
一种基于凸边界的学习样本抽取方法,其特征在于:在用于机器学习的数据库中抽取学习样本时,进行了以下步骤,步骤1,数据集合的预切割:对输入的数据库进行预处理,包括缺失值、异常值的处理;步骤2,构造学习样本凸集合:将每类子集中心化,形成凸集合,依象限用hash表构成样本索引;步骤3,边界样本抽取:在凸集合的象限边界上抽取样本。

【技术特征摘要】
1.一种基于凸边界的学习样本抽取方法,其特征在于:在用于机器学习的数据库中抽取学习样本时,进行了以下步骤,步骤1,数据集合的预切割:对输入的数据库进行预处理,包括缺失值、异常值的处理;步骤2,构造学习样本凸集合:将每类子集中心化,形成凸集合,依象限用hash表构成样本索引;步骤3,边界样本抽取:在凸集合的象限边界上抽取样本。2.根据权利要求1所述的基于凸边界的学习样本抽取方法,其特征在于:步骤1所述的对原始数据库进行预处理的方法为,去除含缺失值的样本;在每个类别中,利用箱型图在每个属性中检测异常值,删除其所在的样本;进行归一化操作;根据数据集合类别标识进行预切割工作,每一类的所有样本为一个数据子集。3.根据权利要求1所述的基于凸边界的学习样本抽取方法,其特征在...

【专利技术属性】
技术研发人员:袁玉波顾依依谈询滔阮彤
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1