一种数据分类的方法及装置制造方法及图纸

技术编号:20726107 阅读:44 留言:0更新日期:2019-03-30 17:56
本发明专利技术公开了一种数据分类的方法,包括:确定预测数据集分别属于每个类别的概率;根据所述概率构造所述预测数据集属于各个类别的概率区间;随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。还公开了一种数据分类的装置。本方案主要应用于机器学习领域的多类分类问题,通过本方法进行类别判断,充分考虑训练样本误差带来的影响,不仅丰富了多类逻辑回归算法的内部逻辑结构,同时也增强了多类逻辑回归算法的性能。

【技术实现步骤摘要】
一种数据分类的方法及装置
本专利技术涉及数据处理技术,尤指一种数据分类的方法及装置。
技术介绍
机器学习中的多类逻辑回归算法一般有两种逻辑结构,一种是根据每个所属类别,建立相应的logistic(逻辑)分类器。另一种是改进逻辑回归的损失函数,以满足多分类问题的需要。第一种算法逻辑结构重复亢长,对于类别非常多的分类问题,分类效率将会大大降低,影响算法性能。对于第二种方法,采取softmax回归方式,但会忽略掉样本中存在的随机因素。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种数据分类的方法及装置,能够充分考虑训练样本所携带的随机因素,更加贴近实际的进行分类预测。为了达到本专利技术目的,本专利技术提供了一种数据分类的方法,包括:确定预测数据集分别属于每个类别的概率;根据所述概率构造所述预测数据集属于各个类别的概率区间;随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。进一步地,所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后,还包括:根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。进一步地,所述对预先本文档来自技高网...

【技术保护点】
1.一种数据分类的方法,其特征在于,包括:确定预测数据集分别属于每个类别的概率;根据所述概率构造所述预测数据集属于各个类别的概率区间;随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。

【技术特征摘要】
1.一种数据分类的方法,其特征在于,包括:确定预测数据集分别属于每个类别的概率;根据所述概率构造所述预测数据集属于各个类别的概率区间;随机生成一个[0,1]之间的随机数,根据所述随机数所在的概率区间确定所述预测数据集的类别。2.根据权利要求1所述的方法,其特征在于,所述根据所述随机数所在的概率区间确定所述预测数据集的类别之后,还包括:根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正。3.根据权利要求2所述的方法,其特征在于,所述根据所确定的类别和实际类别的差异对预先构造的分类预测模型的相关参数进行修正的过程中,包括:将通过所述分类预测模型确定的类型和实际类别输入到预先构建的损失函数,如所述损失函数输出的值小于指定阈值时,输出所述分类预测模型。4.根据权利要求1所述的方法,其特征在于,所述确定预测数据集分别属于每个类别的概率是通过以下式子实现的:其中,前为条件下,属于第n类的概率;5.一种数据分类的装置,包括:存储器和处理器;其特征在于:...

【专利技术属性】
技术研发人员:王文潇
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1