【技术实现步骤摘要】
数据分类模型的训练方法、数据分类方法和装置
[0001]本说明书一个或多个实施例涉及计算机
,尤其涉及数据分类模型的训练方法、数据分类方法和装置。
技术介绍
[0002]在机器学习中,需要对原始数据进行标签定义,如此才能利用该定义过标签的数据进行学习训练。
[0003]然而,在机器学习的实际应用场景中,用于进行机器学习的原始数据中经常会出现“灰标”的情形,即有些数据无法对其进行准确的分类,从而导致无法对该数据进行准确的标签定义,进一步也就导致了训练得到的模型可用性较低。
技术实现思路
[0004]本说明书一个或多个实施例描述了数据分类模型的训练方法、数据分类方法和装置,能够提高数据分类的准确性。
[0005]根据第一方面,提供了数据分类模型的训练方法,包括:
[0006]获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;
[0007]确定基于所述正数据样本的标准正数据概率分布;以及,
[0008]确定基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所述灰度数据样本中实际分类标签为正数据的概率分布;
[0009]根据所述标准正数据概率分布和所述拟合正数据概率分布,对数据分类模型进行训练。
[0010]在一种可能的实现方式中,所述确定基于所述正数据样本的标准正数据概率分布,包括:
[0011]将所述正数据样本的极大似然估计,确定为该正数据样本的标准正数据概率分布。
[0012]在一种可能的实现方 ...
【技术保护点】
【技术特征摘要】
1.数据分类模型的训练方法,包括:获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;确定基于所述正数据样本的标准正数据概率分布;以及,确定基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所述灰度数据样本中实际分类标签为正数据的概率分布;根据所述标准正数据概率分布和所述拟合正数据概率分布,对数据分类模型进行训练。2.根据权利要求1所述的方法,其中,所述确定基于所述正数据样本的标准正数据概率分布,包括:将所述正数据样本的极大似然估计,确定为该正数据样本的标准正数据概率分布。3.根据权利要求1所述的方法,其中,所述确定基于所述灰度数据样本的拟合正数据概率分布,包括:利用神经网络表征出样本历史数据中任意一个数据为正数据的条件概率分布;其中,所述正数据样本和所述灰度数据样本均从所述样本历史数据中获取得到;根据所述条件概率分布,利用贝叶斯表征出灰度数据样本中实际分类标签为正数据的概率分布;将表征出的所述正数据的概率分布定义为拟合正数据概率分布。4.根据权利要求1所述的方法,其中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布对数据分类模型进行训练,包括:根据所述标准正数据概率分布和所述拟合正数据概率分布,确定损失函数;计算所述损失函数中权重参数的更新量。5.根据权利要求4所述的方法,其中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布确定损失函数,包括:计算所述标准正数据概率分布和所述拟合正数据概率分布之间的KL(Kullback
‑
Leibler)散度损失;确定对所述损失函数进行过拟合修正的正则化损失;根据所述KL散度损失和所述正则化损失,确定所述标准正数据概率分布和所述拟合正数据概率分布的损失函数。6.根据权利要求5所述的方法,其中,所述计算所述标准正数据概率分布和所述拟合正数据概率分布之间的KL散度损失,包括:根据如下计算式计算所述KL散度损失:其中,Φ(x)用于表征任意一个数据x为正数据的概率,用于表征所述KL散度损失,B
u
用于表征所述灰度数据样本,B
p
用于表征所述正数据样本,B
u
用于表征所述灰度数据样本中的数据个数,B
p
用于表征所述正数据样本中的数据个数,公式中的第一项为基于拟合正数据概率分布得到的损失项,公式中的第二项为基于标准正数据概率分布得到的损失项。
7.根据权利要求5所述的方法,其中,所述正数据样本中包括:至少两个正数据子样本;所述灰度数据样本中包括:至少两个灰度数据子样本;所述...
【专利技术属性】
技术研发人员:刘芳卿,傅幸,吕乐,王宁涛,周璟,杨阳,蒋晨之,王维强,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。