一种模型训练方法及相关装置制造方法及图纸

技术编号：33132405 阅读：23 留言：0更新日期：2022-04-17 00:52

本申请实施例公开了一种人工智能领域的模型训练方法及相关装置，其中该方法包括：基于负样本衡量机制，确定未标记样本集合中各未标记样本各自对应的负样本置信度；根据各未标记样本各自对应的负样本置信度，从未标记样本集合中选出目标负样本；基于目标负样本和目标正样本构建第一训练样本集；根据未标记样本集合中除目标负样本外的未标记样本各自对应的负样本置信度，选出参考正样本和参考负样本；基于目标负样本和参考负样本、以及目标正样本和参考正样本构建第二训练样本集；基于第一训练样本集和第二训练样本集，训练目标分类模型。该方法能够使训练得到的模型可以更全面准确地识别各种输入数据。确地识别各种输入数据。确地识别各种输入数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法及相关装置

[0001]本申请涉及人工智能
，尤其涉及一种模型训练方法及相关装置。

技术介绍

[0002]在实际应用中，存在许多只有正样本以及大量未标记样本的情况，出现这种情况通常是因为负样本的获取难度较高、或者负样本过于多样化且动态变化。
[0003]对于上述情况，目前通常采用半监督学习中的PU learning(Positive and Unlabeled data learning)来解决。PU learning通常基于两步法实现；第一步是采用预设的分类方法，从未标记样本中选出置信度较高的负样本；第二步是利用所选出的负样本和本身就正确的正样本组成训练样本集，进而，利用该训练样本集进行模型训练。
[0004]然而，经本申请专利技术人研究发现，上述PU learning的实现方法存在以下缺陷：在第二步中仅利用通过第一步选出的负样本和正样本进行模型训练，而丢弃其余没有被选出作为负样本的未标记样本，将会导致训练得到的模型存在局限性，难以全面准确地识别各种输入数据；其原因在于，没有被选出作为...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：基于负样本衡量机制，确定未标记样本集合中各未标记样本各自对应的负样本置信度；根据所述未标记样本集合中各未标记样本各自对应的负样本置信度，从所述未标记样本集合中选出目标负样本；基于所述目标负样本和目标正样本，构建第一训练样本集；根据参考未标记样本集合中各未标记样本各自对应的负样本置信度，从所述参考未标记样本集合中选出参考正样本和参考负样本，所述参考未标记样本集合包括所述未标记样本集合中除所述目标负样本以外的未标记样本；基于所述目标负样本和所述参考负样本、以及所述目标正样本和所述参考正样本，构建第二训练样本集；基于所述第一训练样本集和所述第二训练样本集，训练目标分类模型。2.根据权利要求1所述的方法，其特征在于，所述基于负样本衡量机制，确定未标记样本集合中各未标记样本各自对应的负样本置信度，包括：基于多种负样本衡量机制，确定所述未标记样本集合中各未标记样本各自在每种所述负样本衡量机制下的负样本置信度；所述基于所述目标负样本和目标正样本，构建第一训练样本集，包括：针对每种所述负样本衡量机制，基于所述负样本衡量机制下的目标负样本和所述目标正样本，构建所述第一训练样本集；所述负样本衡量机制下的目标负样本，是根据所述未标记样本集合中各未标记样本各自在所述负样本衡量机制下的负样本置信度选出的；所述基于所述目标负样本和所述参考负样本、以及所述目标正样本和所述参考正样本，构建第二训练样本集，包括：针对每种所述负样本衡量机制，基于所述负样本衡量机制下的目标负样本、参考负样本和参考正样本、以及所述目标正样本，构建所述第二训练样本集；所述负样本衡量机制下的参考负样本和参考正样本，均是根据所述负样本衡量机制对应的参考未标记样本集合中各未标记样本各自在所述负样本衡量机制下的负样本置信度选出的；所述负样本衡量机制对应的参考未标记样本集合，包括所述未标记样本集合中除所述负样本衡量机制下的目标负样本以外的未标记样本。3.根据权利要求2所述的方法，其特征在于，所述基于多种负样本衡量机制，确定所述未标记样本集合中各未标记样本各自在每种所述负样本衡量机制下的负样本置信度，包括以下至少两种：基于所述未标记样本集合中的未标记样本以及所述目标正样本，训练半监督分类模型；通过所述半监督分类模型，确定所述未标记样本集合中各未标记样本各自在半监督机制下的负样本置信度；根据所述未标记样本集合中各未标记样本以及各所述目标正样本在特征空间的分布情况，确定所述未标记样本集合中各未标记样本各自在无监督机制下的负样本置信度；获取所述未标记样本集合中各未标记样本各自对应的参考特征；根据目标业务场景下的业务规则、以及所述未标记样本集合中各未标记样本各自对应的参考特征，确定所述未标记样本集合中各未标记样本各自在强规则机制下的负样本置信度；所述目标业务场景是产生所述未标记样本的业务场景。4.根据权利要求3所述的方法，其特征在于，所述基于所述未标记样本集合中的未标记
样本以及所述目标正样本，训练半监督分类模型；通过所述半监督分类模型，确定所述未标记样本集合中各未标记样本各自在半监督机制下的负样本置信度，包括以下至少一种：将所述未标记样本集合划分为m个未标记样本子集合，所述m为大于1的整数；针对每个所述未标记样本子集合，将所述未标记样本子集合包括的未标记样本作为第一模拟负样本，基于所述目标正样本和所述第一模拟负样本，训练所述未标记样本子集合对应的第一半监督分类模型；通过m个所述第一半监督分类模型，确定所述未标记样本集合中各未标记样本各自在第一半监督机制下的负样本置信度；从各所述目标正样本中选出部分所述目标正样本，将所选出的所述目标正样本、以及所述未标记样本集合中的各未标记样本作为第二模拟负样本；基于未选出的所述目标正样本和所述第二模拟负样本，训练第二半监督分类模型；通过所述第二半监督分类模型，确定所述未标记样本集合中各未标记样本各自在第二半监督机制下的负样本置信度。5.根据权利要求3所述的方法，其特征在于，所述根据所述未标记样本集合中各未标记样本以及各所述目标正样本在特征空间的分布情况，确定所述未标记样本集合中各未标记样本各自在无监督机制下的负样本置信度，包括以下至少一种：对所述未标记样本集合中各未标记样本以及各所述目标正样本进行聚类处理，得到多个聚类簇；针对所述未标记样本集合中每个未标记样本，根据其所属的聚类簇中包括的所述目标正样本的数量，确定所述未标记样本在第一无监督机制下的负样本置信度；针对所述未标记样本集合中每个未标记样本，在特征空间中确定所述未标记样本对应的多个邻近样本；根据所述多个邻近样本中包括的所述目标正样本的数量，确定所述未标记样本在第二无监督机制下的负样本置信度。6.根据权利要求3所述的方法，其特征在于，所述未标记样本为已通过参考验证、被识别为使用用户为目标对象的目标账号的特征数据；所述获取所述未标记样本集合中各未标记样本各自对应的参考特征；根据目标业务场景下的业务规则、以及所述未标记样本集合中各未标记样本各自对应的参考特征，确定所...

【专利技术属性】
技术研发人员：邓金涛，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人