数据分类模型的训练方法、数据分类方法和装置制造方法及图纸

技术编号:34007923 阅读:18 留言:0更新日期:2022-07-02 13:51
本说明书实施例描述了数据分类模型的训练方法、数据分类方法和装置。根据实施例的方法,首先获取标签已知的正数据样本和标签未知的灰度数据样本,然后分别确定基于该正数据样本的标准正数据概率分布和基于该灰度数据样本的拟合正数据概率分布。进一步即可根据该标准正数据概率分布和拟合正数据概率分布实现对数据分类模型的训练。如此基于灰度数据中的正数据也应服从标准正数据概率分布的原则,构建适用于对所有数据进行标签分类的数据分类模型,从而能够提高利用该数据分类模型对数据进行分类的准确性。进行分类的准确性。进行分类的准确性。

【技术实现步骤摘要】
数据分类模型的训练方法、数据分类方法和装置


[0001]本说明书一个或多个实施例涉及计算机
,尤其涉及数据分类模型的训练方法、数据分类方法和装置。

技术介绍

[0002]在机器学习中,需要对原始数据进行标签定义,如此才能利用该定义过标签的数据进行学习训练。
[0003]然而,在机器学习的实际应用场景中,用于进行机器学习的原始数据中经常会出现“灰标”的情形,即有些数据无法对其进行准确的分类,从而导致无法对该数据进行准确的标签定义,进一步也就导致了训练得到的模型可用性较低。

技术实现思路

[0004]本说明书一个或多个实施例描述了数据分类模型的训练方法、数据分类方法和装置,能够提高数据分类的准确性。
[0005]根据第一方面,提供了数据分类模型的训练方法,包括:
[0006]获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;
[0007]确定基于所述正数据样本的标准正数据概率分布;以及,
[0008]确定基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所述灰度数据样本中实际分类标签为正数据的概率分布;
[0009]根据所述标准正数据概率分布和所述拟合正数据概率分布,对数据分类模型进行训练。
[0010]在一种可能的实现方式中,所述确定基于所述正数据样本的标准正数据概率分布,包括:
[0011]将所述正数据样本的极大似然估计,确定为该正数据样本的标准正数据概率分布。
[0012]在一种可能的实现方式中,所述确定基于所述灰度数据样本的拟合正数据概率分布,包括:
[0013]利用神经网络表征出样本历史数据中任意一个数据为正数据的条件概率分布;其中,所述正数据样本和所述灰度数据样本均从所述样本历史数据中获取得到;
[0014]根据所述条件概率分布,利用贝叶斯表征出灰度数据样本中实际分类标签为正数据的概率分布;
[0015]将表征出的所述正数据的概率分布定义为拟合正数据概率分布。
[0016]在一种可能的实现方式中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布对数据分类模型进行训练,包括:
[0017]根据所述标准正数据概率分布和所述拟合正数据概率分布,确定损失函数;
[0018]计算所述损失函数中权重参数的更新量。
[0019]在一种可能的实现方式中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布确定损失函数,包括:
[0020]计算所述标准正数据概率分布和所述拟合正数据概率分布之间的KL(Kullback

Leibler)散度损失;
[0021]确定对所述损失函数进行过拟合修正的正则化损失;
[0022]根据所述KL散度损失和所述正则化损失,确定所述标准正数据概率分布和所述拟合正数据概率分布的损失函数。
[0023]在一种可能的实现方式中,所述计算所述标准正数据概率分布和所述拟合正数据概率分布之间的KL散度损失,包括:
[0024]根据如下计算式计算所述KL散度损失:
[0025][0026]其中,Φ(x)用于表征任意一个数据x为正数据的概率,用于表征所述KL散度损失,B
u
用于表征所述灰度数据样本,B
p
用于表征所述正数据样本,B
u
用于表征所述灰度数据样本中的数据个数,B
p
用于表征所述正数据样本中的数据个数,公式中的第一项为基于拟合正数据概率分布得到的损失项,公式中的第二项为基于标准正数据概率分布得到的损失项。。
[0027]在一种可能的实现方式中,所述正数据样本中包括:至少两个正数据子样本;所述灰度数据样本中包括:至少两个灰度数据子样本;
[0028]所述确定对所述损失函数进行过拟合修正的正则化损失,包括:
[0029]从所述正数据样本中获取至少一个正数据子样本;以及,
[0030]从所述灰度数据样本中获取至少一个灰度数据子样本;
[0031]构建一个服从先验分布的抽样参数;
[0032]利用所述至少一个正数据子样本、所述至少一个灰度数据子样本和所述抽样参数,确定至少一个人工构造数据;
[0033]根据所述至少一个人工构造数据,确定所述正则化损失。
[0034]在一种可能的实现方式中,所述根据所述至少一个人工构造数据确定所述正则化损失,包括:
[0035]将所述人工构造数据输入当前训练的所述数据分类模型中,得到对应各个人工构造数据的模型标签值;
[0036]利用如下计算式,计算所述正则化损失:
[0037][0038]其中,用于表征所述正则化损失,B用于表征所述人工构造数据的个数,用于表征第i个人工构造数据,用于表征第i个人工构造数据所对应的人工标签值;用于表征第i个人工构造数据通过数据分类模型得到的模型标签值。
[0039]在一种可能的实现方式中,所述确定至少一个人工构造数据,包括:
[0040]当所述正数据子样本或所述灰度数据子样本包括数值特征和/或图像像素点特征时,通过mixup的数据增强机制确定所述人工构造数据;
[0041]和/或,
[0042]当所述正数据子样本或所述灰度数据子样本包括文本特征时,通过对数据子样本中的数据进行随机替换确定所述人工构造数据。
[0043]根据第二方面,提供了数据分类方法,包括:
[0044]得到待分类的数据;
[0045]将所述待分类的数据输入数据分类模型,得到该数据分类模型输出的分类标签;其中,所述数据分类模型是利用第一方面中任一所述的方法训练得到的。
[0046]根据第三方面,提供了数据分类模型的训练装置,包括:
[0047]数据样本获取模块,配置为获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;
[0048]标准概率分布确定模块,配置为确定基于所述数据样本获取模块获取到的所述正数据样本的标准正数据概率分布;
[0049]拟合概率分布确定模块,配置为确定所述数据样本获取模块获取到的基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所述灰度数据样本中实际分类标签为正数据的概率分布;
[0050]模型训练模块,配置为根据所述标准概率分布确定模块确定的所述标准正数据概率分布和所述拟合概率分布确定模块确定的所述拟合正数据概率分布,对数据分类模型进行训练。
[0051]根据第四方面,提供了数据分类装置,包括:
[0052]输入模块,配置为得到待分类的数据,并将该待分类的数据输入数据分类模型;
[0053]数据分类模型,配置为输出所述输入模块输入的待分类数据的分类标签;其中,该数据分类模型是利用第三方面所述的装置训练出来的。
[0054]根据第五方面,提供了一种计算设备,包括:存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.数据分类模型的训练方法,包括:获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;确定基于所述正数据样本的标准正数据概率分布;以及,确定基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所述灰度数据样本中实际分类标签为正数据的概率分布;根据所述标准正数据概率分布和所述拟合正数据概率分布,对数据分类模型进行训练。2.根据权利要求1所述的方法,其中,所述确定基于所述正数据样本的标准正数据概率分布,包括:将所述正数据样本的极大似然估计,确定为该正数据样本的标准正数据概率分布。3.根据权利要求1所述的方法,其中,所述确定基于所述灰度数据样本的拟合正数据概率分布,包括:利用神经网络表征出样本历史数据中任意一个数据为正数据的条件概率分布;其中,所述正数据样本和所述灰度数据样本均从所述样本历史数据中获取得到;根据所述条件概率分布,利用贝叶斯表征出灰度数据样本中实际分类标签为正数据的概率分布;将表征出的所述正数据的概率分布定义为拟合正数据概率分布。4.根据权利要求1所述的方法,其中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布对数据分类模型进行训练,包括:根据所述标准正数据概率分布和所述拟合正数据概率分布,确定损失函数;计算所述损失函数中权重参数的更新量。5.根据权利要求4所述的方法,其中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布确定损失函数,包括:计算所述标准正数据概率分布和所述拟合正数据概率分布之间的KL(Kullback

Leibler)散度损失;确定对所述损失函数进行过拟合修正的正则化损失;根据所述KL散度损失和所述正则化损失,确定所述标准正数据概率分布和所述拟合正数据概率分布的损失函数。6.根据权利要求5所述的方法,其中,所述计算所述标准正数据概率分布和所述拟合正数据概率分布之间的KL散度损失,包括:根据如下计算式计算所述KL散度损失:其中,Φ(x)用于表征任意一个数据x为正数据的概率,用于表征所述KL散度损失,B
u
用于表征所述灰度数据样本,B
p
用于表征所述正数据样本,B
u
用于表征所述灰度数据样本中的数据个数,B
p
用于表征所述正数据样本中的数据个数,公式中的第一项为基于拟合正数据概率分布得到的损失项,公式中的第二项为基于标准正数据概率分布得到的损失项。
7.根据权利要求5所述的方法,其中,所述正数据样本中包括:至少两个正数据子样本;所述灰度数据样本中包括:至少两个灰度数据子样本;所述...

【专利技术属性】
技术研发人员:刘芳卿傅幸吕乐王宁涛周璟杨阳蒋晨之王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1