一样本筛选方法、装置、存储介质及电子设备制造方法及图纸

技术编号:34739139 阅读:19 留言:0更新日期:2022-08-31 18:30
本申请公开了一种样本筛选方法、装置、存储介质及电子设备。其中,方法包括:基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。本申请能够准确确定各待筛选样本的训练价值,进而后续根据各待筛选的训练价值准确的筛选获得目标样本。标样本。标样本。

【技术实现步骤摘要】
一样本筛选方法、装置、存储介质及电子设备


[0001]本专利技术涉及计算机领域,特别涉及一种样本筛选方法、装置、存储介质及电子设备。

技术介绍

[0002]深度学习模型近年来在各个领域取得了突破性进展。而训练数据集的质量是决定机器学习模型实际表现的关键因素之一。
[0003]而目前,准备大批量的样本费时费力、成本非常高,例如,可能需要对大批量的未标注样本进行标注,从而获得标注样本。然而,有很多未标注样本的质量较差,如相似的未标注样本的数量可能过多等等,导致所获得的标注样本的质量不高,影响了对相应的模型的训练效果,从而影响了模型的应用性能,并且大大提升了标注所需的时间成本以及人力成本等。
[0004]由此,亟需一种样本筛选方法,以解决现有技术中无法准确、快速的从大量的未标注样本中筛选获得质量较高的样本的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种样本筛选方法、装置、存储介质及电子设备,主要目的在于解决现有技术中无法准确、快速的从大量的未标注样本中筛选获得目标样本的问题。/>[0006]为解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本筛选方法,其特征在于,包括:基于样本集合构建获得以各样本为节点的样本图;所述样本集合中包括若干带有训练价值标签的标签样本以及若干未带有训练价值标签的待筛选样本;至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型;基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值;基于各所述待筛选样本的训练价值对各所述待筛选样本进行筛选,获得目标样本。2.如权利要求1所述的方法,其特征在于,在基于样本集合构建获得以各样本为节点的样本图之前,所述方法还包括:对所述样本集合中的各所述标签样本以及各所述待筛选样本分别进行特征提取,获得与各样本对应的特征向量;所述基于样本集合构建获得以各样本为节点的样本图,具体包括:基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度;基于各样本之间的相似度构建各样本之间的拓扑关系网,以构建获得以各样本为节点的样本图。3.如权利要求2所述的方法,其特征在于,所述基于任意两个样本各自对应的特征向量,确定所述两个样本的相似度,具体包括:基于任意两个样本各自对应的特征向量,计算所述两个样本之间的欧式距离;基于所述欧式距离获得所述两个样本之间的相似度。4.如权利要求2所述的方法,其特征在于,所述至少基于所述样本图中各所述标签样本以及各所述标签样本的训练价值标签进行模型训练,获得目标GNN图网络模型,具体包括:基于所述样本图中各所述标签样本的训练价值标签、各所述标签样本的特征向量、与各所述标签样本相邻的邻居样本的特征向量以及邻居样本的训练价值标签,进行模型训练,获得所述目标GNN图网络模型。5.如权利要求1所述的方法,其特征在于,所述基于所述目标GNN图网络模型确定所述样本图中各所述待筛选样本的训练价值,具体包括:利用所述目标GNN图网络模型,根据所述待筛选样本的特征向量、与所述待筛选样本相邻...

【专利技术属性】
技术研发人员:王俊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1