一种样本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33535400 阅读:38 留言:0更新日期:2022-05-19 02:15
本申请提供了一种样本处理方法、装置、电子设备及存储介质,涉及数据处理技术领域,旨在确定无标注样本是分布内样本或者是离群样本。所述方法包括:对样本池中多个无标注样本进行聚类,得到多个无标注样本簇,并确定多个无标注样本簇各自的聚类中心;根据多个有标注样本各自的特征表示,确定多个标注标签各自的特征表示中心;根据多个无标注样本簇各自的聚类中心与多个标注标签各自的特征表示中心的距离,从多个无标注样本簇各自的聚类中心中确定出分布内聚类中心,以及离群聚类中心;将分布内聚类中心对应的无标注样本簇内的各个无标注样本,确定为分布内样本,以及将离群聚类中心对应的无标注样本簇内的各个无标注样本,确定为离群样本。确定为离群样本。确定为离群样本。

【技术实现步骤摘要】
一种样本处理方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,特别是涉及一种样本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]神经网络模型在各种计算机任务中取得了很大的成功,但神经网络模型的训练需要大量的有标注样本。当只有有限的有标注样本时,可以通过半监督的训练方法,结合大量无标注样本来提高神经网络模型的性能。
[0003]然而,无标注数据中往往包含大量的与其它样本的特征差距较大的离群样本,使用离群样本对神经网络模型进行训练,容易导致训练得到的神经网络模型性能受到损害。因此,急需一种确定训练样本是否为离群样本的方法。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例提供了一种样本处理方法、装置、电子设备及存储介质,以便克服上述问题或者至少部分地解决上述问题。
[0005]本专利技术实施例的第一方面,提供了一种样本处理方法,所述方法包括:
[0006]对样本池中多个无标注样本进行聚类,得到多个无标注样本簇,并确定所述多个无标注样本簇各自的聚类中心;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本处理方法,其特征在于,包括:对样本池中多个无标注样本进行聚类,得到多个无标注样本簇,并确定所述多个无标注样本簇各自的聚类中心;根据所述样本池中多个有标注样本各自的特征表示,确定所述多个标注标签各自的特征表示中心;根据所述多个无标注样本簇各自的聚类中心与多个标注标签各自的特征表示中心的距离,从所述多个无标注样本簇各自的聚类中心中确定出分布内聚类中心,以及离群聚类中心;将分布内聚类中心对应的无标注样本簇内的各个无标注样本,确定为分布内样本,以及,将离群聚类中心对应的无标注样本簇内的各个无标注样本,确定为离群样本。2.根据权利要求1所述的方法,其特征在于,对样本池中多个无标注样本进行聚类,得到多个无标注样本簇,并确定所述多个无标注样本簇各自的聚类中心,包括:从所述样本池随机选择N个无标注样本初始为N个原型;以所述N个原型为N个聚类中心,对除所述N个原型外剩余的无标注样本进行原型聚类,得到N个无标注样本簇,并将N个无标注样本簇各自的聚类中心确定为对应的原型的特征表示。3.根据权利要求1或2所述的方法,其特征在于,还包括:将包括无标注训练样本的训练样本集输入原型聚类基模型,得到所述原型聚类基模型输出的M个无标注训练样本簇及其原型样本,其中,所述原型聚类基模型用于:从所述训练样本集中随机选择M个无标注训练样本初始为M个原型样本,并以所述M个原型样本为M个聚类中心样本,对除所述M个原型样本外剩余的无标注训练样本进行原型聚类;以最小化无标注训练样本的特征表示与最接近的原型样本的特征表示之间的差异,并最大化无标注训练样本的特征表示与其他原型样本的特征表示之间的差异为目标,对所述原型聚类基模型进行训练,得到训练好的原型聚类模型;对样本池中多个无标注样本进行聚类,得到多个无标注样本簇,并确定所述多个无标注样本簇各自的聚类中心,包括:将所述多个无标注样本输入所述原型聚类模型,得到所述原型聚类模型输出的多个无标注样本簇及其原型,将所述原型聚类模型输出的多个原型确定为所述多个无标注样本簇各自的聚类中心。4.根据权利要求3所述的方法,其特征在于,以最小化无标注训练样本的特征表示与最接近的原型样本的特征表示之间的差异,并最大化无标注训练样本的特征表示与其他原型样本的特征表示之间的差异为目标,对所述原型聚类基模型进行训练,得到训练好的原型聚类模型,包括:根据每个无标注训练样本簇内各个无标注训练样本的特征表示与最接近的原型样本的特征表示之间的差异,以及与其他原型样本的特征表示之间的差异,计算损失值;利用所述损失值,对所述原型聚类基模型进行迭代训练,得到训练好的原型聚类模型。5.根据权利要求4所述的方法,其特征在于,在每一次迭代训练之后,所述方法还包括:根据每个无标注训练样本簇内各个无标注训练样本的特征表示与最接近的原型样本的特征表示,更新该最接近的原型样本的特征表示。
6.根据权利要求1所述的方法,其特征在于,根据所述多个无标注标签样本簇各自的聚类中心与...

【专利技术属性】
技术研发人员:李冠彬赵赣龙张津津柴振华魏晓林
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1