一种基于混合范数的数据分类训练数据库清洗方法技术

技术编号:13922651 阅读:71 留言:0更新日期:2016-10-27 23:46
本方法公开了一种基于混合范数的数据分类训练数据库清洗方法。目标是大规模减少训练样本数量和维数。本方法核心技术包括:第一、将用户给出的数据库进行预处理,包括缺失处理和数据集合预切割;第二、利用混合范数(包括零范数、1范数和无穷范数)和数据相关性技术,从数据库中抽取有代表性的样本;第三、利用正交化技术选择出最优样本,并根据分类标识补全样本数量为空的类样本。基于上述过程,此方法能大幅减少数据分类的建模时间和内存空间,提高学习效率。在给出的清洗效率指标下,我们选择了常用的5类数据分类算法在10种UCI数据库上,开展了数据分类测试,结果表明,学习数据库样本越多,清洗效率越高,清洗效率最高可达到140以上。

【技术实现步骤摘要】

本专利技术主要涉及学习样本清洗技术,具体涉及一种基于混合范数的数据分类训练数据库清洗方法
技术介绍
随着经济和科技的不断发展,现实世界中各方面的数据量也急剧增长。数据驱动的智能系统就成为了人工智能和机器学习的前沿重要研究课题。传统的技术已经无法支撑对庞大数据的处理,并且从现存的数据分类算法来看,很多算法也都是基于大规模的学习样本来训练得到分类参数。但当移动终端时代的来临,学习样本的数量严重制约了相应的智能数据分类系统的应用与推广,并且其中的噪声数据也会影响分类系统的准确性。为了提升相应智能系统的性能(特别是移动终端),学习样本的清洗就成为了必要的技术。在此问题的驱动下,本文的研究目标是提出有效地清洗训练样本数据库的新方法。训练样本的清洗技术是指对用于机器学习的样本进行筛选的过程,是数据挖掘中一项必不可少的技术。筛选包括对属性的选择和对样本的选择。对属性的选择,就是减少属性的个数,达到减少数据量的目的,方法通常包括删除无用属性、删除相关性高的属性、PCA合并属性生成新属性。对样本的选择,就是减少样本的个数,达到减少数据量的目的,方法通常包括删除缺失值、异常值的记录,以某种标准筛选出代表性样本。对异常值的处理通常选择直接将含有异常值的记录剔除,但在异常值处理之前需要对异常值进行识别。一般可以选用箱型图进行异常值的分析,其好处是不需要数据服从某种特定的分布,它是根据实际的数据来绘制箱型图的。箱型图主要包含六个结点:上边缘、上四分位数Q1、中位数、下四分位数Q2、下边缘、异常值,其中异常值被定义为大于Q1+1.5IQR或小于Q2-1.5IQR,IQR为四分位距。由此可见,箱型图判断异常值以四分位数和四分位距为标准,而四分位数具有一定的耐抗性,因此四分位数不会被异常之所扰动,使得用箱型图来识别异常值会比较客观。范数norm,相当于一种标准,在样本选择中规定着我们以何种方式对样本进行清洗。通常,使用的范数包括0范数、1范数、2范数、无穷范数。通常,我们要处理的数据库来源于现实世界中的方方面面,那么以哪种标准进行衡量决策最合适就变得很难预测,为了解决这个问题,我们将不同的范数进行混合,提出了基于混合范数的方式进行样本清洗,使我们清洗后的样本不会出现偏差。正交化是线性代数中分析向量空间问题时常用的一种方法,它可以将一组线性无关的向量等价转化为一组正交向量,这样可以使得分析空间的向量更加容易,并且向量在正交基上的投影只包含此方向上的信息,便于进行信息的提取与分析。通过正交化对清洗后的训练样本进行矫正,可以使得选择到的每个样本包含的信息几乎没有重叠,以较少的样本代表原始数据库中更多的信息。对属性的筛选通常使用PCA,主成分分析。属性的数量过多会使数据的研究变得复杂,并且大多数属性之间是具有一定的相关性的,PCA就是去除这些属性中信息重叠的部分,从而合并得到新的属性,这些属性之间两两不相关,并尽可能的保持原有的信息。通常数学上PCA的处理过程就是,将原始的P个属性作线性组合F,选择一个或多个F用来代表原始的P个属性。F的方差越大,说明其包含的信息量越多。因此,按照F方差由大到小依次选择,并且每次选择的F不能包含已选择的F中的信息,直到选择到足以代表原始P个属性。PCA不仅可以减少属性的个数,还可以根据新属性中贡献度大的(包含信息量最多的新属性),在此属性中按照标准进行样本选择。
技术实现思路
本专利技术的目的在于提出一种基于混合范数的数据分类训练数据库清洗方法。利用混合范数选择代表性样本,并通过正交化矫正所选样本,最后进行类别补全,使得在大大缩减样本数量的同时,又可以代表原始数据库。本专利技术的技术方案如下:步骤1,对输入的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割。对原始数据库进行预处理的方法为,去除含缺失值的记录,利用箱型图分析异常值并去除,根据数据集合的秩与类别数对其进行预切割。步骤2,利用混合范数从预处理后的数据库中抽取代表性样本。对步骤1所得到的预处理后的数据库进行样本抽取的方法为,对于步骤1得到的数据库的每个属性以极大、极小、平均的标准进行抽取得到三组代表性样本。如果以某标准抽取样本时未抽取到,则逆向抽取样本;如果依旧未抽取到,则以此标准的次距离进行抽取,直到抽取到样本。步骤3,利用正交化技术进行样本矫正,选择出最优样本。步骤3所述的对步骤2所抽取的代表性样本进行正交化矫正的方法为,利用施密特正交化公式对步骤2所得到的代表性样本进行正交化,得到一组正交基,根据此组正交基在步骤1所得到的数据库中抽取样本。步骤4,根据分类标识补全样本数量为空的类样本,得到最终结果。步骤4所述的对步骤3正交化矫正后的样本进行类别补全的方法为,统计需要补全的类别,利用PCA选择补全的样本,并与步骤3所得到样本中可删除的样本进行相关性判别,替换样本中的记录,直到补全所有类别。附图说明读者在参照附图阅读了本专利技术的具体实施方式以后,将会更清楚地了解本专利技术的各个方面。其中,图1为本专利技术基于混合范数的数据分类训练数据库清洗方法的流程图;图2为十个原始数据库与其清洗后的数据量对比图;图3为应用在五种分类算法上的效率图。具体实施方式步骤1,对输入的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割。对原始数据库进行预处理的方法为,去除含缺失值的记录,利用箱型图分析异常值并去除。根据数据集合的秩与类别数对其进行预切割,如果秩小于类别数则进行切割,切割的个数为,并按照类别比例进行子集的分割;否则,不进行分割。步骤2,利用混合范数从预处理后的数据库中抽取代表性样本。对步骤1所得到的预处理后的数据库进行样本抽取的方法为,生成随机的属性选择序列,对于步骤1得到的数据库按照序列对每个属性分别以极大、极小、平均的标准抽取三组代表性样本。以极大标准为例,如果此标准抽取样本时未抽取到,则逆向抽取样本,以极小标准抽取,未抽取到样本,则以平均标准抽取;如果依旧未抽取到,则以次大标准进行抽取,直到抽取到秩的个数的样本为止。步骤3,利用正交化技术进行样本矫正,选择出最优样本。步骤3所述的对步骤2所抽取的代表性样本进行正交化矫正的方法为,利用施密特正交化公式对步骤2所得到的代表性样本进行正交化,得到一组正交基。根据此组正交基在步骤1所得到的数据库中抽取样本,方法为:在这组正交基上,按照每一行向量是以哪个属性抽取的,就提取出此行对应属性的值,与步骤1所得到的数据库中此属性的值比较抽取绝对值最小那行记录作为矫正后的样本,直到矫正完步骤2所抽取的所有样本。步骤4,根据分类标识补全样本数量为空的类样本,得到最终结果。步骤4所述的对步骤3正交化矫正后的样本进行类别补全的方法为,对步骤3所得结果统计需要补全的类别,并提取多余类别的样本。利用PCA选择补全的样本,方法为:以极大标准抽取到的样本为例。(1)当需要补全的类别的记录只有一条时,则选择此记录为补全样本;(2)当补全的类别的记录数小于属性数时,转置后再用PCA分析,选取PCA结果中第一列最大值所对应的属性,在补全类别的记录中选择此属性中最大值的记录作为补全样本;(3)否则,对补全类别的记录直接进行PCA分析,选择结果中第一列所对应的最大值的行号的记录作为补全样本。最后用这条补全样本与多余类别的样本进行相关性本文档来自技高网
...

【技术保护点】
一种基于混合范数的数据分类训练数据库清洗方法,其特征在于:对数据分类训练数据库清洗时,进行了以下步骤:步骤1,对输入的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割;步骤2,利用混合范数从预处理后的数据库中抽取代表性样本;步骤3,利用正交化技术进行样本矫正,选择出最优样本;步骤4,根据分类标识补全样本数量为空的类样本,得到最终结果。

【技术特征摘要】
1.一种基于混合范数的数据分类训练数据库清洗方法,其特征在于:对数据分类训练数据库清洗时,进行了以下步骤:步骤1,对输入的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割;步骤2,利用混合范数从预处理后的数据库中抽取代表性样本;步骤3,利用正交化技术进行样本矫正,选择出最优样本;步骤4,根据分类标识补全样本数量为空的类样本,得到最终结果。2.根据权利要求1所述的基于混合范数的数据分类训练数据库清洗方法,其特征在于:步骤1所述的对原始数据库进行预处理的方法为,去除含缺失值的记录,利用箱型图分析异常值并去除,根据数据集合的秩与类别数对其进行预切割。3.根据权利要求1所述的基于混合范数的数据分类训练数据库清洗方法,其特征在于:步骤2所述的对步骤1所得到的预处理后的数据库进行样本抽取的方法为,对于步骤1...

【专利技术属性】
技术研发人员:袁玉波顾依依阮彤赵婷婷邱文强溥冬梅高炬殷亦超
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1