【技术实现步骤摘要】
一种数据的分类方法、装置、存储介质及电子装置
本申请涉及计算机领域,尤其涉及一种数据的分类方法、装置、存储介质及电子装置。
技术介绍
在人工智能模型领域,不同的模型对于无关特征的容忍度不同,逐渐增加无关特征后不同模型的均方根误差(RootMeanSquaredError,简称为RMSE)会体现出不同的变化。树模型普遍表现较好,而神经网络因其模型的复杂性则很容易过拟合。套索算法(LeastAbsoluteShrinkageandSelectionOperator,简称为Lasso)模型因其可以产生稀疏特征也有较好的表现。目前由于数据维度高导致模型的学习时间长,精度低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种数据的分类方法、装置、存储介质及电子装置。根据本申请实施例的一个方面,提供了一种数据的分类方法,包括:获取多组样本数据,以及所述多组样本数据中每组样本数据对应的数据标签,其中,所述多组样本数据中 ...
【技术保护点】
1.一种数据的分类方法,其特征在于,包括:/n获取多组样本数据,以及所述多组样本数据中每组样本数据对应的数据标签,其中,所述多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值;/n将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度;/n使用目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练,得到目标分类模型,其中,所述目标样本数据包括所述目标特征维度中每个目标特征维度对应的目标特征值;/n使用所述目标分类模型对获取到的待分类数据进行分类。/n
【技术特征摘要】
1.一种数据的分类方法,其特征在于,包括:
获取多组样本数据,以及所述多组样本数据中每组样本数据对应的数据标签,其中,所述多组样本数据中的每组样本数据包括多个特征维度中每个特征维度对应的特征值;
将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度;
使用目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练,得到目标分类模型,其中,所述目标样本数据包括所述目标特征维度中每个目标特征维度对应的目标特征值;
使用所述目标分类模型对获取到的待分类数据进行分类。
2.根据权利要求1所述的方法,其特征在于,将所述多个特征维度中与所述数据标签之间的相关度高于或者等于目标相关度阈值的特征维度确定为目标特征维度包括:
确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度;
将所述相关度最高的第一数量的特征维度确定为所述目标特征维度,其中,所述目标相关度阈值包括所述第一数量的特征维度所对应的相关度中的最小值;或者,将所对应的相关度高于或者等于预设相关度的第二数量的特征维度确定为所述目标特征维度,其中,所述目标相关度阈值包括所述预设相关度。
3.根据权利要求2所述的方法,其特征在于,确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度包括:
根据所述多个特征维度的维度信息和维度数量确定所述第一数量,其中,所述第一数量为大于0且小于所述维度数量的整数;
采用卡方分布确定所述多个特征维度中每个特征维度与所述数据标签之间的相关度。
4.根据权利要求1所述的方法,其特征在于,使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对初始分类模型进行训练,得到目标分类模型包括:
建立初始逻辑回归模型,其中,所述初始逻辑回归模型包括关系式以及逻辑回归函数,所述关系式用于指示所述初始逻辑回归模型的输入参数为所述目标特征维度以及所述目标特征维度与所述关系式的输出信息之间的运算关系,所述逻辑回归函数用于指示所述关系式的输出信息与所述初始逻辑回归模型的输出参数之间的运算关系;
使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对所述初始逻辑回归模型进行训练,得到目标逻辑回归模型。
5.根据权利要求4所述的方法,其特征在于,使用所述目标样本数据以及所述目标样本数据对应的目标数据标签对所述初始逻辑回归模型进行训练,得到所述目标逻辑回归模型包括:
将每个所述目标样本数据对应的目标特征值作为所述输入参数输...
【专利技术属性】
技术研发人员:王信峰,房红征,杨浩,樊焕贞,李蕊,胡伟钢,余家豪,王晓栋,
申请(专利权)人:北京航天测控技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。