【技术实现步骤摘要】
一种数据分类方法、系统、存储介质及设备
[0001]本专利技术涉及数据
,尤其涉及一种数据分类方法、系统、存储介质及设备。
技术介绍
[0002]分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。预测则是用于预测数据对象的连续取值的,需要预测的属性值是连续的、有序的。例如,在银行业务中,根据贷款申请者的信息来判断贷款者是属于“安全”类还是“风险”类,这是数据挖掘中的分类任务。而分析给贷款人的贷款量就是数据挖掘中的预测任务。有的算法只能用来进行分类或者预测,还有的算法既可以用来进行分类,又可以进行预测。
[0003]分类算法反映的是如何找出同类事物的共同性质的特征型知识和不同事物之间的差异性特征知识。分类是通过有指导的学习训练建立分类模型,并使用模型对未知分类的实例进行分类。分类输出属性是离散的、无序的。分类技术在很多领域都有应用。当前,市场营销很重要的一个特点就是强调客户细分。采用数据挖掘中的分类技术,可以将客户分成不同的类别。例 ...
【技术保护点】
【技术特征摘要】
1.一种数据分类方法,其特征在于,包括以下步骤:从数据集中选取部分数据作为训练集中的样本,所述样本有至少两种类别,每个样本对应已知的一种类别;基于各种类别的样本在所述训练集中的占比得到新交叉熵损失函数,所述新交叉熵损失函数为交叉熵损失函数的改进函数;基于所述训练集对所述新交叉熵损失函数进行训练,以得到训练完成的分类模型;基于所述分类模型对类别未知的数据进行类别预测,以对所述类别未知的数据进行分类。2.根据权利要求1所述的方法,其特征在于,基于各种类别的样本在所述训练集中的占比得到新交叉熵损失函数包括:响应于所述交叉熵损失函数为二分类交叉熵损失函数,计算正类样本在所述训练集中所占的第一比例,并基于所述第一比例得到所述正类样本的第一权重和负类样本的第二权重,并基于所述第一权重和所述第二权重得到所述新交叉熵损失函数。3.根据权利要求1所述的方法,其特征在于,基于各种类别的样本在所述训练集中的占比得到新交叉熵损失函数还包括:响应于所述交叉熵损失函数为多分类交叉熵损失函数,计算待预测类别的样本在所述训练集中所占的第二比例,并基于所述第二比例得到所述待预测类别的样本的第三权重,并基于所述第三权重得到所述新交叉熵损失函数。4.根据权利要求1所述的方法,其特征在于,还包括:将所述数据集中剩余部分的数据作为检验集,并将其输入至所述分类模型中,以得到预测结果;将所述预测结果与所述检验集中数据的已知实际类别进行比较,以基于比较结果确定所述分类模型的预测准确率...
【专利技术属性】
技术研发人员:陈静静,吴睿振,王凛,张永兴,张旭,
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。