数据分类模型的训练方法、数据分类方法和装置制造方法及图纸

技术编号:34007923 阅读:29 留言:0更新日期:2022-07-02 13:51
本说明书实施例描述了数据分类模型的训练方法、数据分类方法和装置。根据实施例的方法,首先获取标签已知的正数据样本和标签未知的灰度数据样本,然后分别确定基于该正数据样本的标准正数据概率分布和基于该灰度数据样本的拟合正数据概率分布。进一步即可根据该标准正数据概率分布和拟合正数据概率分布实现对数据分类模型的训练。如此基于灰度数据中的正数据也应服从标准正数据概率分布的原则,构建适用于对所有数据进行标签分类的数据分类模型,从而能够提高利用该数据分类模型对数据进行分类的准确性。进行分类的准确性。进行分类的准确性。

【技术实现步骤摘要】
数据分类模型的训练方法、数据分类方法和装置


[0001]本说明书一个或多个实施例涉及计算机
,尤其涉及数据分类模型的训练方法、数据分类方法和装置。

技术介绍

[0002]在机器学习中,需要对原始数据进行标签定义,如此才能利用该定义过标签的数据进行学习训练。
[0003]然而,在机器学习的实际应用场景中,用于进行机器学习的原始数据中经常会出现“灰标”的情形,即有些数据无法对其进行准确的分类,从而导致无法对该数据进行准确的标签定义,进一步也就导致了训练得到的模型可用性较低。

技术实现思路

[0004]本说明书一个或多个实施例描述了数据分类模型的训练方法、数据分类方法和装置,能够提高数据分类的准确性。
[0005]根据第一方面,提供了数据分类模型的训练方法,包括:
[0006]获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;
[0007]确定基于所述正数据样本的标准正数据概率分布;以及,
[0008]确定基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.数据分类模型的训练方法,包括:获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;确定基于所述正数据样本的标准正数据概率分布;以及,确定基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所述灰度数据样本中实际分类标签为正数据的概率分布;根据所述标准正数据概率分布和所述拟合正数据概率分布,对数据分类模型进行训练。2.根据权利要求1所述的方法,其中,所述确定基于所述正数据样本的标准正数据概率分布,包括:将所述正数据样本的极大似然估计,确定为该正数据样本的标准正数据概率分布。3.根据权利要求1所述的方法,其中,所述确定基于所述灰度数据样本的拟合正数据概率分布,包括:利用神经网络表征出样本历史数据中任意一个数据为正数据的条件概率分布;其中,所述正数据样本和所述灰度数据样本均从所述样本历史数据中获取得到;根据所述条件概率分布,利用贝叶斯表征出灰度数据样本中实际分类标签为正数据的概率分布;将表征出的所述正数据的概率分布定义为拟合正数据概率分布。4.根据权利要求1所述的方法,其中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布对数据分类模型进行训练,包括:根据所述标准正数据概率分布和所述拟合正数据概率分布,确定损失函数;计算所述损失函数中权重参数的更新量。5.根据权利要求4所述的方法,其中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布确定损失函数,包括:计算所述标准正数据概率分布和所述拟合正数据概率分布之间的KL(Kullback

Leibler)散度损失;确定对所述损失函数进行过拟合修正的正则化损失;根据所述KL散度损失和所述正则化损失,确定所述标准正数据概率分布和所述拟合正数据概率分布的损失函数。6.根据权利要求5所述的方法,其中,所述计算所述标准正数据概率分布和所述拟合正数据概率分布之间的KL散度损失,包括:根据如下计算式计算所述KL散度损失:其中,Φ(x)用于表征任意一个数据x为正数据的概率,用于表征所述KL散度损失,B
u
用于表征所述灰度数据样本,B
p
用于表征所述正数据样本,B
u
用于表征所述灰度数据样本中的数据个数,B
p
用于表征所述正数据样本中的数据个数,公式中的第一项为基于拟合正数据概率分布得到的损失项,公式中的第二项为基于标准正数据概率分布得到的损失项。
7.根据权利要求5所述的方法,其中,所述正数据样本中包括:至少两个正数据子样本;所述灰度数据样本中包括:至少两个灰度数据子样本;所述...

【专利技术属性】
技术研发人员:刘芳卿傅幸吕乐王宁涛周璟杨阳蒋晨之王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1