样本处理方法、分类模型训练方法、计算设备和存储介质技术

技术编号:37983051 阅读:7 留言:0更新日期:2023-06-30 09:57
本公开涉及样本处理方法、分类模型训练方法、计算设备和存储介质。该样本处理方法包括:获取训练样本集;确定所述训练样本集中多个垂域的正样本数量分布不均衡,从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域;以及确定所述至少一个垂域的至少一部分负样本,将所述至少一部分负样本中所述至少一个垂域的标签值更新为非零的负样本标签值。该方法通过将小样本垂域的至少一部分负样本中的关于该垂域的标签值变为非零值,使得该至少部分负样本被部分拟合到该小样本垂域上,从而增大小样本垂域的召回率。从而增大小样本垂域的召回率。从而增大小样本垂域的召回率。

【技术实现步骤摘要】
样本处理方法、分类模型训练方法、计算设备和存储介质


[0001]本公开涉及人工智能领域,特别涉及样本处理方法、分类模型训练方法、计算设备和存储介质。

技术介绍

[0002]在人工智能领域,可以通过神经网络模型来执行分类任务,其包括多标签分类。多标签分类指的是,在对一个样本进行分类时可以将其同时分到若干个类别,即该样本的若干个类别的标签可以同时为1或超过判定阈值(判定属于某类别的阈值),例如可以预测给定的图片是一条狗还是一只猫,同时预测其皮毛是长还是短。

技术实现思路

[0003]本公开实施例提供了样本处理方法、分类模型训练方法、以及相应的执行这些方法的计算设备和非暂时性机器可读存储介质。
[0004]根据本公开实施例的第一个方面,提供了一种样本处理方法,包括:获取训练样本集;确定所述训练样本集中多个垂域的正样本数量分布不均衡,从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域;以及确定所述至少一个垂域的至少一部分负样本,将所述至少一部分负样本中所述至少一个垂域的标签值更新为非零的负样本标签值。
[0005]可选地,确定所述训练样本集中多个垂域的正样本数量分布不均衡,从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域,包括:计算各垂域的正样本的概率分布的信息熵,在所述信息熵小于信息熵阈值的情况下,确定所述训练样本集中多个垂域的正样本数量分布不均衡;以及将正样本的分布概率小于所述概率分布阈值的垂域作为所述至少一个垂域。
[0006]可选地,所述至少一部分负样本中其它垂域的标签值不变。
[0007]可选地,该样本处理方法还包括:随机生成一个小于0.1的正值作为所述负样本标签值。
[0008]可选地,所述负样本标签值和所述至少一个垂域的正样本数量成反比。
[0009]可选地,所述训练样本集中的训练样本包括对话系统接收到的问询,获取训练样本集包括获取只有一个正样本标签值的样本作为所述训练样本集的至少一部分。
[0010]可选地,该样本处理方法还包括:利用未标注的样本访问对话系统的各个垂域的自然语言理解服务,并且确定针对所述未标注的样本的召回结果;以及针对所述未标注的样本,将有召回结果的垂域的标签值设为正样本标签值,而将无召回结果的垂域的标签值设为负样本标签值,并且将设好标签值的该样本加入所述训练样本集。
[0011]根据本公开实施例的第二个方面,提供了一种分类模型训练方法,包括:获取训练样本集;确定所述训练样本集中多个垂域的正样本数量分布不均衡,从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域;确定所述至少一个垂域的至少一
部分负样本,将所述至少一部分负样本中所述至少一个垂域的标签值更新为非零的负样本标签值;以及获取所述至少一部分负样本更新后的所述训练样本集,对分类模型进行训练。
[0012]可选地,该分类模型训练方法还包括:每次训练所述分类模型后,对所述训练样本集进行更新得到更新训练样本集,迭代训练所述分类模型直到得到满足训练停止条件的已训练分类模型。
[0013]可选地,所述训练停止条件包括损失函数不再下降或者迭代预设的训练次数,所述分类模型的损失函数由所述训练样本集中的所有训练样本下每个垂域的标签值与所述分类模型输出的每个垂域的概率值确定。
[0014]根据本公开实施例的第三个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面或第二方面所述的方法。
[0015]根据本公开实施例的第四个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面或第二方面所述的方法。
附图说明
[0016]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0017]图1示出了根据本公开至少一个实施例的分类模型训练方法的示意性流程图。
[0018]图2A示出了根据现有技术的训练样本的标签值的示例。
[0019]图2B示出了根据本公开至少一个实施例的训练样本的标签值的示例。
[0020]图2C示出了根据本公开至少一个实施例的训练样本的标签值的示例。
[0021]图3示出了根据本公开至少一个实施例的获取训练样本集的方法的示意性流程图。
[0022]图4示出了根据本公开至少一个实施例的计算设备的结构示意图。
具体实施方式
[0023]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0024]在一些对话系统中,通常将与用户的对话分成多个垂域(domain),并且针对每个垂域提供专门的自然语言理解(naturallanguage understanding,下文中简称为NLU)服务,从而能更好地实现与用户的对话。在这种情况下,出于例如保证召回率、提升准确率、或减少对各垂域NLU服务的访问以达到服务性能要求等目的,在对用户输入的问询(query)进行NLU处理之前,通常要对该问询进行分类,来判断该问询属于哪个或哪些垂域,从而应该调用哪个或哪些垂域的NLU服务,而避免那些不相关垂域的NLU服务的不必要调用。这在垂域很多的情况下特别适用。可以使用普通的多分类方案或多标签分类方案对问询进行垂域
分类。相比于普通的多分类方案,多标签分类方案能够保证每个类别的概率值分布在0~1之间。
[0025]然而,本公开发现在使用分类模型进行分类时,在为该模型提供的训练样本分布不均衡的情况下,容易出现小样本垂域(小样本类别)欠召回的问题。训练样本分布不均衡指的是各个垂域/类别的正样本的数量差别太大。例如,在有些情况下,导航垂域的功能点比较多,其训练数据的正样本数量可能为20万,而系统设置垂域的功能点少,其对应的用于训练的正样本数量可能才1万,因此存在训练样本在各个垂域/类别之间分布不均衡的情况。另外,在本公开中,表述“小样本”指的是正样本数量占比较小,相应地,表述“小样本垂域”或“小样本类别”指的是正样本数量比其他垂域/类别少很多的垂域/类别,如稍后将详细描述的,可以利用各个方法来判别小样本垂域或小样本类别。
[0026]由此,本申请提出了一种改进的样本处理方法及对应的分类模型训练方法,其通过改变小样本类别的至少部分负样本中的关于该类别的标签值(例如图2B

2C中所示的)来增加分类模型对该小样本类别的学习,从而增大小样本类别的召回率。虽然前面讨论的是对对话系统的问询进行垂域分类的具体应用场景,而且下文中也会以该应用场景为例来帮助理解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本处理方法,包括:获取训练样本集;确定所述训练样本集中多个垂域的正样本数量分布不均衡,从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域;以及确定所述至少一个垂域的至少一部分负样本,将所述至少一部分负样本中所述至少一个垂域的标签值更新为非零的负样本标签值。2.根据权利要求1所述的方法,确定所述训练样本集中多个垂域的正样本数量分布不均衡,从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域,包括:计算各垂域的正样本的概率分布的信息熵,在所述信息熵小于信息熵阈值的情况下,确定所述训练样本集中多个垂域的正样本数量分布不均衡;以及将正样本的分布概率小于所述概率分布阈值的垂域作为所述至少一个垂域。3.根据权利要求1所述的方法,其中,所述至少一部分负样本中其它垂域的标签值不变。4.根据权利要求1所述的方法,还包括:随机生成一个小于0.1的正值作为所述负样本标签值。5.根据权利要求1所述的方法,其中,所述负样本标签值和所述至少一个垂域的正样本数量成反比。6.根据权利要求1所述的方法,其中,所述训练样本集中的训练样本包括对话系统接收到的问询,获取训练样本集包括获取只有一个正样本标签值的样本作为所述训练样本集的至少一部分。7.根据权利要求6所述的方法,还包括:利用未标注的样本访问所述对话系统的各个垂域的自然语言理解服务,并且确定针对所述未标注的样本的召回结果;以及针对所述未标注的样本,将有召回结果的垂域的标签值设为正样本...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:湖北星纪魅族科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1