样本处理方法、分类模型训练方法、计算设备和存储介质技术

技术编号：37983051 阅读：7 留言：0更新日期：2023-06-30 09:57

本公开涉及样本处理方法、分类模型训练方法、计算设备和存储介质。该样本处理方法包括：获取训练样本集；确定所述训练样本集中多个垂域的正样本数量分布不均衡，从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域；以及确定所述至少一个垂域的至少一部分负样本，将所述至少一部分负样本中所述至少一个垂域的标签值更新为非零的负样本标签值。该方法通过将小样本垂域的至少一部分负样本中的关于该垂域的标签值变为非零值，使得该至少部分负样本被部分拟合到该小样本垂域上，从而增大小样本垂域的召回率。从而增大小样本垂域的召回率。从而增大小样本垂域的召回率。

全部详细技术资料下载

【技术实现步骤摘要】
样本处理方法、分类模型训练方法、计算设备和存储介质

[0001]本公开涉及人工智能领域，特别涉及样本处理方法、分类模型训练方法、计算设备和存储介质。

技术介绍

[0002]在人工智能领域，可以通过神经网络模型来执行分类任务，其包括多标签分类。多标签分类指的是，在对一个样本进行分类时可以将其同时分到若干个类别，即该样本的若干个类别的标签可以同时为1或超过判定阈值(判定属于某类别的阈值)，例如可以预测给定的图片是一条狗还是一只猫，同时预测其皮毛是长还是短。

技术实现思路

[0003]本公开实施例提供了样本处理方法、分类模型训练方法、以及相应的执行这些方法的计算设备和非暂时性机器可读存储介质。
[0004]根据本公开实施例的第一个方面，提供了一种样本处理方法，包括：获取训练样本集；确定所述训练样本集中多个垂域的正样本数量分布不均衡，从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域；以及确定所述至少一个垂域的至少一部分负样本，将所述至少一部分负样本中所述至少一个垂域的标签值更新为非零的负样本标签值。
[0005]可选地，确定所述训练样本集中多个垂域的正样本数量分布不均衡，从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域，包括：计算各垂域的正样本的概率分布的信息熵，在所述信息熵小于信息熵阈值的情况下，确定所述训练样本集中多个垂域的正样本数量分布不均衡；以及将正样本的分布概率小于所述概率分布阈值的垂域作为所述至少一个垂域。
[0006]可选地，所述至少一...

【技术保护点】

【技术特征摘要】
1.一种样本处理方法，包括：获取训练样本集；确定所述训练样本集中多个垂域的正样本数量分布不均衡，从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域；以及确定所述至少一个垂域的至少一部分负样本，将所述至少一部分负样本中所述至少一个垂域的标签值更新为非零的负样本标签值。2.根据权利要求1所述的方法，确定所述训练样本集中多个垂域的正样本数量分布不均衡，从所述多个垂域中确定正样本的分布概率小于概率分布阈值的至少一个垂域，包括：计算各垂域的正样本的概率分布的信息熵，在所述信息熵小于信息熵阈值的情况下，确定所述训练样本集中多个垂域的正样本数量分布不均衡；以及将正样本的分布概率小于所述概率分布阈值的垂域作为所述至少一个垂域。3.根据权利要求1所述的方法，其中，所述至少一部分负样本中其它垂域的标签值不变。4.根据权利要求1所述的方法，还包括：随机生成一个小于0.1的正值作为所述负样本标签值。5.根据权利要求1所述的方法，其中，所述负样本标签值和所述至少一个垂域的正样本数量成反比。6.根据权利要求1所述的方法，其中，所述训练样本集中的训练样本包括对话系统接收到的问询，获取训练样本集包括获取只有一个正样本标签值的样本作为所述训练样本集的至少一部分。7.根据权利要求6所述的方法，还包括：利用未标注的样本访问所述对话系统的各个垂域的自然语言理解服务，并且确定针对所述未标注的样本的召回结果；以及针对所述未标注的样本，将有召回结果的垂域的标签值设为正样本...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：湖北星纪魅族科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人