分类模型的训练方法及装置制造方法及图纸

技术编号:19693840 阅读:62 留言:0更新日期:2018-12-08 11:41
本申请公开了一种分类模型的训练方法及装置,用于提升数据分析效率。本申请的分类模型的训练方法包括:接收用于训练分类模型的样本数据,样本数据包括多个样本特征;从样本数据中确定目标特征子集,利用高维稀疏化转换方法确定目标特征子集的高维稀疏特征;确定目标特征子集的高维稀疏特征对应的目标数据复杂度,该数据复杂度包括用于表征数据特征的多个维度;根据已建立的数据复杂度与分类算法的映射关系确定目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与目标分类算法的超参数集合的映射关系确定目标数据复杂度所对应的目标参数;根据确定的目标参数以及目标特征子集的高维稀疏特征训练目标分类算法,以得到分类模型。

【技术实现步骤摘要】
分类模型的训练方法及装置
本申请涉及数据处理领域,特别涉及一种分类模型的训练方法及装置。
技术介绍
随着大数据时代的到来,信息数据日益膨胀,对海量数据进行高效鲁棒精确分析的市场需求不断扩大。如电信领域的离网预测、医疗诊断、信用卡系统的信用分级、图像模式识别以及网络数据分类等。在此背景下,机器学习得到了广泛应用,尤其以机器学习中分类方法的应用最为广泛。然而,对于分类方法的使用却面临着众多的难题,其中以特征选择,特征变换,模型选择和参数调优最为困难,需要反复尝试,修改,再迭代,使得数据分析周期长,成本高。由于特征选择,模型选择,参数调优等任何一个环节都有可能对最终结果产生影响,所以在数据分析时,要求系统整体具备较高的鲁棒性,使得当一个环节出了轻微的问题,不至于给最终结果造成很差的影响。但也正因如此,影响数据分析的因素很多,对数据分析结果的定位和调试成本非常高,特别是大数据场景,每做一次数据分析需要花费大量的时间进行计算,导致整个数据分析周期过长,数据分析效率低下。
技术实现思路
本申请提供了一种分类模型的训练方法及装置,用于提升数据分析效率。本申请第一方面提供了一种分类模型的训练方法,该分类模型用于对数据进行分类。为了便于从样本数据中提取相关特征,因此,首先需要接收输入的用于训练所述分类模型的样本数据;其中,该样本数据包括多个样本特征。然后通过从该样本数据中确定目标特征子集,筛选出需要用到的多个特征,以减少数据的计算量。其中,该目标特征子集为该样本数据中相关性和冗余度都满足目标条件的特征集合。利用高维稀疏化转换方法确定该目标特征子集的高维稀疏特征,该高维稀疏特征为线性特征;如利用核函数方法对所述目标特征子集进行稀疏化处理,得到目标特征子集的高维稀疏特征,以提高数据分析的精度。接下来确定该目标特征子集的高维稀疏特征对应的目标数据复杂度,该数据复杂度包括用于表征数据特点的多个维度;可采用数据复杂度来度量特征子集的高维稀疏特征。然后根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与所述目标分类算法的超参数集合的映射关系确定所述目标数据复杂度所对应的目标参数达到优选算法以及缩小参数空间的目的。其中,该数据复杂度与分类算法的映射关系,以及该数据复杂度与分类算法的超参数集合的映射关系可通过预学习训练得到。最后根据确定的该目标参数以及该目标特征子集的高维稀疏特征训练该目标分类算法,以得到该分类模型。应用该分类模型能够提高数据分析效率。在第一方面的一种实现方式下,上述从该样本数据中确定目标特征子集,包括:从该样本数据中确定最大相关性和最小冗余度的特征子集;该最大相关性和最小冗余度的特征子集为该目标特征子集。通过提取满足最大相关性和最小冗余度的特征子集,可以过滤一些关联度不重要的数据,以减少数据的计算量。在第一方面的一种实现方式下,该利用高维稀疏化转换方法确定该目标特征子集的高维稀疏特征,包括:首先对该目标特征子集进行均衡处理,然后添加随机噪声;然后对上述进行均衡处理以及添加随机噪声后的所述目标特征子集进行拆分,拆分为第一子集和第二子集;利用该第一子集训练特征稀疏编码算法,以得到特征稀疏编码泛化模型;最后输入第二子集,将所述特征稀疏编码泛化模型作用于拆分得到的第二子集中的数据,从而确定出该第二子集对应的高维稀疏特征。在第一方面的一种实现方式下,上述根据已建立的数据复杂度与分类算法的映射关系确定该目标数据复杂度所对应的目标分类算法之前,该方法还包括:训练该数据复杂度与分类算法的映射关系,以及训练该数据复杂度与分类算法的超参数集合的映射关系。该实现方式通过预学习训练得到该数据复杂度与分类算法的映射关系,以及该数据复杂度与分类算法的超参数集合的映射关系。在第一方面的一种实现方式下,该训练该数据复杂度与分类算法的映射关系,以及训练该数据复杂度与分类算法的超参数集合的映射关系包括:获取输入的多个分类算法以及多组训练数据;确定该多组训练数据中每组训练数据对应的分类算法以及该多个分类算法中每个分类算法对应的超参数集合;通过使用多个分类算法训练多组不同的训练数据,获得每组训练数据与其各个分类算法的适合程度的统计信息,该统计信息包括了各个分类算法的类别,以及各个分类算法对应的参数取值范围即超参数集合。获取多份数据复杂度,该多份数据复杂度是该多组训练数据中每组训练数据的数据复杂度;通过采用数据复杂度从多个维度表征每组训练数据的特点,以得到所述多组训练数据中每组训练数据的数据复杂度。建立该多份数据复杂度与该多个分类算法的映射关系;按照所得数据指标的精度,选取数据指标精度较高的至少一个分类算法,并建立该份数据复杂度与该至少一个分类算法的映射关系。对于多组训练数据所包括的多份数据复杂度,按照上述方式,建立多份数据复杂度与所述多个分类算法的映射关系。建立该多份数据复杂度与该每个分类算法对应的超参数集合的映射关系。按照所得数据指标的精度,从所述超参数集合中选取数据指标精度较高的一组参数作为目标参数,并建立该份数据复杂度与该分类算法的超参数集合中所述目标参数的映射关系。对于多组训练数据所包括的多份数据复杂度,按照上述方式,建立多份数据复杂度与每个分类算法的超参数集合的映射关系。在第一方面的一种实现方式下,该数据复杂度包括用于表征数据特点的十二个维度中的至少两个,该十二个维度包括:线性判别率、目标类型范围重叠率、单一特征最大能效、线性分类误差率、线性分类最小误差和、线性分类面样本比例、同类样本聚集密度、不同类样本聚集密度、样本数据非线性、异类样本差异性、各类样本最小超维闭包以及各个维度取值稀疏率。可从该十二个维度中选取至少两个维度作为表征所述目标特征子集的高维稀疏特征的目标数据复杂度。本申请第二方面提供了一种分类模型的训练装置,该分类模型用于对数据进行分类,该装置包括:收发单元,用于接收用于训练该分类模型的样本数据,该样本数据包括多个样本特征;处理单元,用于从该样本数据中确定目标特征子集,该目标特征子集为该样本数据中相关性和冗余度都满足目标条件的特征集合;利用高维稀疏化转换方法确定该目标特征子集的高维稀疏特征,该高维稀疏特征为线性特征;确定该目标特征子集的高维稀疏特征对应的目标数据复杂度,该数据复杂度包括用于表征数据特点的多个维度;根据已建立的数据复杂度与分类算法的映射关系确定该目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与该目标分类算法的超参数集合的映射关系确定该目标数据复杂度所对应的目标参数;根据确定的该目标参数以及该目标特征子集的高维稀疏特征训练该目标分类算法,以得到该分类模型。在第二方面的一种实现方式下,该处理单元用于从该样本数据中确定目标特征子集,包括:该处理单元,用于从该样本数据中确定最大相关性和最小冗余度的特征子集;该最大相关性和最小冗余度的特征子集为该目标特征子集。在第二方面的一种实现方式下,该处理单元用于利用高维稀疏化转换方法确定该目标特征子集的高维稀疏特征,包括:该处理单元,用于对该目标特征子集进行均衡处理,然后添加随机噪声;将进行均衡处理以及添加随机噪声后的该目标特征子集拆分为第一子集和第二子集;利用该第一子集训练特征稀疏编码算法,以得到特征稀本文档来自技高网...

【技术保护点】
1.一种分类模型的训练方法,其特征在于,所述分类模型用于对数据进行分类,所述方法包括:接收用于训练所述分类模型的样本数据,所述样本数据包括多个样本特征;从所述样本数据中确定目标特征子集,所述目标特征子集为所述样本数据中相关性和冗余度都满足目标条件的特征集合;利用高维稀疏化转换方法确定所述目标特征子集的高维稀疏特征,所述高维稀疏特征为线性特征;确定所述目标特征子集的高维稀疏特征对应的目标数据复杂度,所述数据复杂度包括用于表征数据特点的多个维度;根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与所述目标分类算法的超参数集合的映射关系确定所述目标数据复杂度所对应的目标参数;根据确定的所述目标参数以及所述目标特征子集的高维稀疏特征训练所述目标分类算法,以得到所述分类模型。

【技术特征摘要】
1.一种分类模型的训练方法,其特征在于,所述分类模型用于对数据进行分类,所述方法包括:接收用于训练所述分类模型的样本数据,所述样本数据包括多个样本特征;从所述样本数据中确定目标特征子集,所述目标特征子集为所述样本数据中相关性和冗余度都满足目标条件的特征集合;利用高维稀疏化转换方法确定所述目标特征子集的高维稀疏特征,所述高维稀疏特征为线性特征;确定所述目标特征子集的高维稀疏特征对应的目标数据复杂度,所述数据复杂度包括用于表征数据特点的多个维度;根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与所述目标分类算法的超参数集合的映射关系确定所述目标数据复杂度所对应的目标参数;根据确定的所述目标参数以及所述目标特征子集的高维稀疏特征训练所述目标分类算法,以得到所述分类模型。2.根据权利要求1所述的方法,其特征在于,所述从所述样本数据中确定目标特征子集,包括:从所述样本数据中确定最大相关性和最小冗余度的特征子集;所述最大相关性和最小冗余度的特征子集为所述目标特征子集。3.根据权利要求1所述的方法,其特征在于,所述利用高维稀疏化转换方法确定所述目标特征子集的高维稀疏特征,包括:对所述目标特征子集进行均衡处理,然后添加随机噪声;将进行均衡处理以及添加随机噪声后的所述目标特征子集拆分为第一子集和第二子集;利用所述第一子集训练特征稀疏编码算法,以得到特征稀疏编码泛化模型;输入第二子集,并根据所述特征稀疏编码泛化模型确定所述第二子集对应的高维稀疏特征。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法之前,所述方法还包括:训练所述数据复杂度与分类算法的映射关系,以及训练所述数据复杂度与分类算法的超参数集合的映射关系。5.根据权利要求4所述的方法,其特征在于,所述训练所述数据复杂度与分类算法的映射关系,以及训练所述数据复杂度与分类算法的超参数集合的映射关系包括:获取输入的多个分类算法以及多组训练数据;确定所述多组训练数据中每组训练数据对应的分类算法以及所述多个分类算法中每个分类算法对应的超参数集合;获取多份数据复杂度,所述多份数据复杂度是所述多组训练数据中每组训练数据的数据复杂度;建立所述多份数据复杂度与所述多个分类算法的映射关系;建立所述多份数据复杂度与所述每个分类算法对应的超参数集合的映射关系。6.根据权利要求1至3任一项所述的方法,其特征在于,所述数据复杂度包括用于表征数据特点的十二个维度中的至少两个,所述十二个维度包括:线性判别率、目标类型范围重叠率、单一特征最大能效、线性分类误差率、线性分类最小误差和、线性分类面样本比例、同类样本聚集密度、不同类样本聚集密度、样本数据非线性、异类样本差异性、各类样本最小超维闭包以及各个维度取值稀疏率。7.一种分类模型的训练装置,其特征在于,所述分类模型用于对数据进行分类,所述装置包括:收发单元,用于接收用于训练所述分类模型的样本数据,所述样本数据包括多个样本特征;处理单元,用于从所述样本数据中确定目标特征子集,所述目标特征子集为所述样本数据中相关性和冗余度都满足目标条件的特征集合;利用高维稀疏化转换方法确定所述目标特征子集的高维稀...

【专利技术属性】
技术研发人员:刘炯宙夏命榛
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1