【技术实现步骤摘要】
分类模型的训练方法及装置
本申请涉及数据处理领域,特别涉及一种分类模型的训练方法及装置。
技术介绍
随着大数据时代的到来,信息数据日益膨胀,对海量数据进行高效鲁棒精确分析的市场需求不断扩大。如电信领域的离网预测、医疗诊断、信用卡系统的信用分级、图像模式识别以及网络数据分类等。在此背景下,机器学习得到了广泛应用,尤其以机器学习中分类方法的应用最为广泛。然而,对于分类方法的使用却面临着众多的难题,其中以特征选择,特征变换,模型选择和参数调优最为困难,需要反复尝试,修改,再迭代,使得数据分析周期长,成本高。由于特征选择,模型选择,参数调优等任何一个环节都有可能对最终结果产生影响,所以在数据分析时,要求系统整体具备较高的鲁棒性,使得当一个环节出了轻微的问题,不至于给最终结果造成很差的影响。但也正因如此,影响数据分析的因素很多,对数据分析结果的定位和调试成本非常高,特别是大数据场景,每做一次数据分析需要花费大量的时间进行计算,导致整个数据分析周期过长,数据分析效率低下。
技术实现思路
本申请提供了一种分类模型的训练方法及装置,用于提升数据分析效率。本申请第一方面提供了一种分类模型的训练方法,该分类模型用于对数据进行分类。为了便于从样本数据中提取相关特征,因此,首先需要接收输入的用于训练所述分类模型的样本数据;其中,该样本数据包括多个样本特征。然后通过从该样本数据中确定目标特征子集,筛选出需要用到的多个特征,以减少数据的计算量。其中,该目标特征子集为该样本数据中相关性和冗余度都满足目标条件的特征集合。利用高维稀疏化转换方法确定该目标特征子集的高维稀疏特征,该高维稀疏特征为 ...
【技术保护点】
1.一种分类模型的训练方法,其特征在于,所述分类模型用于对数据进行分类,所述方法包括:接收用于训练所述分类模型的样本数据,所述样本数据包括多个样本特征;从所述样本数据中确定目标特征子集,所述目标特征子集为所述样本数据中相关性和冗余度都满足目标条件的特征集合;利用高维稀疏化转换方法确定所述目标特征子集的高维稀疏特征,所述高维稀疏特征为线性特征;确定所述目标特征子集的高维稀疏特征对应的目标数据复杂度,所述数据复杂度包括用于表征数据特点的多个维度;根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与所述目标分类算法的超参数集合的映射关系确定所述目标数据复杂度所对应的目标参数;根据确定的所述目标参数以及所述目标特征子集的高维稀疏特征训练所述目标分类算法,以得到所述分类模型。
【技术特征摘要】
1.一种分类模型的训练方法,其特征在于,所述分类模型用于对数据进行分类,所述方法包括:接收用于训练所述分类模型的样本数据,所述样本数据包括多个样本特征;从所述样本数据中确定目标特征子集,所述目标特征子集为所述样本数据中相关性和冗余度都满足目标条件的特征集合;利用高维稀疏化转换方法确定所述目标特征子集的高维稀疏特征,所述高维稀疏特征为线性特征;确定所述目标特征子集的高维稀疏特征对应的目标数据复杂度,所述数据复杂度包括用于表征数据特点的多个维度;根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与所述目标分类算法的超参数集合的映射关系确定所述目标数据复杂度所对应的目标参数;根据确定的所述目标参数以及所述目标特征子集的高维稀疏特征训练所述目标分类算法,以得到所述分类模型。2.根据权利要求1所述的方法,其特征在于,所述从所述样本数据中确定目标特征子集,包括:从所述样本数据中确定最大相关性和最小冗余度的特征子集;所述最大相关性和最小冗余度的特征子集为所述目标特征子集。3.根据权利要求1所述的方法,其特征在于,所述利用高维稀疏化转换方法确定所述目标特征子集的高维稀疏特征,包括:对所述目标特征子集进行均衡处理,然后添加随机噪声;将进行均衡处理以及添加随机噪声后的所述目标特征子集拆分为第一子集和第二子集;利用所述第一子集训练特征稀疏编码算法,以得到特征稀疏编码泛化模型;输入第二子集,并根据所述特征稀疏编码泛化模型确定所述第二子集对应的高维稀疏特征。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法之前,所述方法还包括:训练所述数据复杂度与分类算法的映射关系,以及训练所述数据复杂度与分类算法的超参数集合的映射关系。5.根据权利要求4所述的方法,其特征在于,所述训练所述数据复杂度与分类算法的映射关系,以及训练所述数据复杂度与分类算法的超参数集合的映射关系包括:获取输入的多个分类算法以及多组训练数据;确定所述多组训练数据中每组训练数据对应的分类算法以及所述多个分类算法中每个分类算法对应的超参数集合;获取多份数据复杂度,所述多份数据复杂度是所述多组训练数据中每组训练数据的数据复杂度;建立所述多份数据复杂度与所述多个分类算法的映射关系;建立所述多份数据复杂度与所述每个分类算法对应的超参数集合的映射关系。6.根据权利要求1至3任一项所述的方法,其特征在于,所述数据复杂度包括用于表征数据特点的十二个维度中的至少两个,所述十二个维度包括:线性判别率、目标类型范围重叠率、单一特征最大能效、线性分类误差率、线性分类最小误差和、线性分类面样本比例、同类样本聚集密度、不同类样本聚集密度、样本数据非线性、异类样本差异性、各类样本最小超维闭包以及各个维度取值稀疏率。7.一种分类模型的训练装置,其特征在于,所述分类模型用于对数据进行分类,所述装置包括:收发单元,用于接收用于训练所述分类模型的样本数据,所述样本数据包括多个样本特征;处理单元,用于从所述样本数据中确定目标特征子集,所述目标特征子集为所述样本数据中相关性和冗余度都满足目标条件的特征集合;利用高维稀疏化转换方法确定所述目标特征子集的高维稀...
【专利技术属性】
技术研发人员:刘炯宙,夏命榛,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。