This method discloses a learning sample extraction method based on convex boundary. The goal is to improve the efficiency of the intelligent classification system and reduce the number of training samples. The core techniques of this method include: first, pre cutting technology of database given by users, including missing value and exception value processing, and pre cutting work of data sets; second, centralization of class sets, introducing the concept of sample convex set, giving category sample index, third, sample extraction of convex boundary, each In the quadrant, boundary samples are extracted from the boundary width. This method can improve the machine learning performance of intelligent classification system. The results of 5 kinds of data classification algorithms on 20 UCI databases show that the boundary samples obtained by the method of boundary sample extraction are effective. The number of learning samples is greatly reduced and the efficiency is significantly improved in the range of the system accuracy.
【技术实现步骤摘要】
一种基于凸边界的学习样本抽取方法
本专利技术主要涉及人工智能技术,具体涉及一种基于凸边界的学习样本抽取方法。
技术介绍
随着大数据时代的来临,给数据驱动的各种智能系统的研究和设计带来了深刻的变化。尤其是人工智能的核心技术——机器学习,成为了研究的热点。而学习样本的质量,即学习样本中的缺失值、异常值、冗余样本、样本数量,都将严重影响到机器学习的性能,如何选择高质量的学习样本集合,成为一个关键的研究课题。在此问题的驱动下,本文的研究目标是提出有效地从原始数据库中抽取学习样本的新方法。学习样本的抽取技术是指对用于机器学习的学习样本进行主动选择的过程,是机器学习中一项必不可少的技术。学习样本的主动选择是选择有意义的样本,而采样,如常用的随机采样是选择代表性的样本,这二者之间是存在区别的。例如,在0-99之间有50个数据,这50个数据分布在0-49之间有1个数据0,50-99之间有49个数据。对于随机采样,数据0和其余49个数据被选择到的概率是相等,保证了样本的代表性;而对于样本抽取来说,是要选择有意义的样本,即如果数据0的存在对于原始数据集是有意义的,就要在抽取样本的过程中选择它,如果对于原始数据集是无意义、甚至对于原始数据集来说是一个噪声数据,那么在抽取样本的过程中就不会选择它。也就是,样本抽取要通过某种规则从原始数据库中选择一个具有意义的、样本数量较少但是包含信息尽可能多的子集作为机器学习的学习样本。使得在机器学习建模时的运行速度快、内存开销少,提升机器学习的效率。并且得到的模型的性能不仅比随机选择要好,而且要和使用原始训练集得到的性能差不多,甚至更好。这也是 ...
【技术保护点】
一种基于凸边界的学习样本抽取方法,其特征在于:在用于机器学习的数据库中抽取学习样本时,进行了以下步骤,步骤1,数据集合的预切割:对输入的数据库进行预处理,包括缺失值、异常值的处理;步骤2,构造学习样本凸集合:将每类子集中心化,形成凸集合,依象限用hash表构成样本索引;步骤3,边界样本抽取:在凸集合的象限边界上抽取样本。
【技术特征摘要】
1.一种基于凸边界的学习样本抽取方法,其特征在于:在用于机器学习的数据库中抽取学习样本时,进行了以下步骤,步骤1,数据集合的预切割:对输入的数据库进行预处理,包括缺失值、异常值的处理;步骤2,构造学习样本凸集合:将每类子集中心化,形成凸集合,依象限用hash表构成样本索引;步骤3,边界样本抽取:在凸集合的象限边界上抽取样本。2.根据权利要求1所述的基于凸边界的学习样本抽取方法,其特征在于:步骤1所述的对原始数据库进行预处理的方法为,去除含缺失值的样本;在每个类别中,利用箱型图在每个属性中检测异常值,删除其所在的样本;进行归一化操作;根据数据集合类别标识进行预切割工作,每一类的所有样本为一个数据子集。3.根据权利要求1所述的基于凸边界的学习样本抽取方法,其特征在...
【专利技术属性】
技术研发人员:袁玉波,顾依依,谈询滔,阮彤,
申请(专利权)人:华东理工大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。