样本处理方法及装置制造方法及图纸

技术编号:31502432 阅读:26 留言:0更新日期:2021-12-22 23:22
本申请实施例涉及人工智能领域,公开了一种样本处理方法及装置,该方法包括:获取多个训练样本集;基于多个训练样本集对样本评定模型中的多个基分类模型进行训练,得到多个基分类模型中每个基分类模型的目标分类阈值,将多个基分类模型中每个基分类模型的目标分类阈值确定为每个训练后的基分类模型的分类阈值,得到多个训练后的基分类模型;基于多个训练后的基分类模型的分类阈值更新样本评定模型的分类阈值,得到更新后的样本评定模型;通过更新后的样本评定模型对第二预测样本进行样本评定处理,得到第二预测样本的评定结果。采用本申请实施例,可以提高优质样本的识别精度。可以提高优质样本的识别精度。可以提高优质样本的识别精度。

【技术实现步骤摘要】
样本处理方法及装置


[0001]本申请涉及人工智能领域,尤其涉及一种样本处理方法及装置。

技术介绍

[0002]内容生产者是指在内容平台产出内容(例如音频内容、视频内容、文字内容等)的用户。举例来说,若内容平台为音乐播放应用提供的内容平台,则内容生产者可以为发布音乐作品的用户;若内容平台为视频播放应用提供的内容平台,则内容生产者可以为发布视频作品的用户。对于内容平台来说,往往需要对内容平台中存在的内容生产者进行优质性评定,从而将评定得到的优质内容生产者进行推荐或增大曝光,以提升内容平台的平台吸引力从而吸引更多的用户。因此,能够准确的识别出优质内容生产者是非常有必要的,但现有的方法中针对优质内容生产者的识别精度低。

技术实现思路

[0003]本申请实施例提供一种样本处理方法及装置,可以提高优质样本的识别精度。
[0004]一方面,本申请实施例提供了一种样本处理方法,包括:
[0005]获取多个训练样本集,所述多个训练样本集中的任一训练样本集包括训练正样本、训练负样本以及无标注训练样本,所述训练负样本包括:第一预测样本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本处理方法,其特征在于,包括:获取多个训练样本集,所述多个训练样本集中的任一训练样本集包括训练正样本、训练负样本以及无标注训练样本,所述训练负样本包括:第一预测样本中评定结果与标签不一致的目标样本,所述评定结果是基于样本评定模型对所述目标样本进行样本评定处理得到的结果,所述标签是对所述目标样本进行标注得到的标签;基于所述多个训练样本集对所述样本评定模型中的多个基分类模型进行训练,得到所述多个基分类模型中每个基分类模型的目标分类阈值,将所述多个基分类模型中每个基分类模型的目标分类阈值确定为每个训练后的基分类模型的分类阈值,得到多个训练后的基分类模型;其中,不同训练样本集对应不同基分类模型;基于所述多个训练后的基分类模型的分类阈值更新所述样本评定模型的分类阈值,得到更新后的样本评定模型;通过所述更新后的样本评定模型对第二预测样本进行样本评定处理,得到所述第二预测样本的评定结果,所述第二预测样本的评定结果是基于所述更新后的样本评定模型的分类阈值得到的。2.如权利要求1所述的方法,其特征在于,所述通过所述更新后的样本评定模型对第二预测样本进行样本评定处理,得到所述第二预测样本的评定结果之后,还包括:基于所述第二预测样本的评定结果以及对所述第二预测样本标注的标签更新所述目标样本,得到更新后的目标样本,所述更新后的目标样本的评定结果与所述更新后的目标样本的标签不一致;更新所述训练样本集,更新后的训练样本集中包括的训练负样本是基于所述更新后的目标样本以及所述更新后的目标样本的标签得到的;将所述更新后的训练样本集作为迭代训练过程中一次迭代训练的训练样本集,以对所述多个训练后的基分类模型进行迭代训练,并对所述更新后的样本评定模型进行迭代更新。3.如权利要求1所述的方法,其特征在于,所述基于所述多个训练样本集对所述样本评定模型中的多个基分类模型进行训练,得到所述多个基分类模型中每个基分类模型的目标分类阈值,包括:将所述无标注训练样本作为训练负样本,基于所述多个训练样本集对所述样本评定模型中的多个基分类模型进行训练,并计算不同分类阈值下所述每个基分类模型的平衡参数F1,所述平衡参数F1用于指示不同分类阈值下所述每个基分类模型的性能;将所述每个基分类模型的平衡参数F1中的最大平衡参数F1所对应的分类阈值确定为所述多个基分类模型中每个基分类模型的目标分类阈值。4.如权利要求1或3所述的方法,其特征在于,所述基于所述多个训练后的基分类模型的分类阈值更新所述样本评定模型的分类阈值,得到更新后的样本评定模型,包括:将所述多个训练后的基分类模型的分类阈值进行处理,得到所述更新后的样本评定模型的分类阈值;基于所述多个训练后的基分类模型以及所述更新后的样本评定模型的分类阈值,得到所述更新后的样本评定模型。5.如权利要求4所述的方法,其特征在于,所述将所述多个训练后的基分类模型的分类
阈值进行处理,得到所述更新后的样本评定模型的分类阈值,包括:将所述多个训练后的基分类模型的分类阈值进行处理,得到中间分类阈值;确定所述更新后的样本...

【专利技术属性】
技术研发人员:李烜
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1