【技术实现步骤摘要】
数据筛选方法和装置、计算机可读存储介质、电子设备
[0001]本公开涉及数据处理技术,尤其是一种数据筛选方法和装置、计算机可读存储介质、电子设备。
技术介绍
[0002]对于神经网络的训练需要大量标注数据,为在保证神经网络精度不降低的情况下尽可能的降低人工的标注成本。通过迭代方式在样本集中挑选能够最大程度提升模型效果和泛化能力的样本,由标注专家进行标注。不确定度采样(Uncertainty Sampling)是最为广泛的一种查询策略(query strategy),其主要是将模型“最易混淆”或“信息量”最大、最有价值的样本返回给专家(expert),以期获得较大的增益。
技术实现思路
[0003]为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种数据筛选方法和装置、计算机可读存储介质、电子设备。
[0004]根据本公开实施例的一个方面,提供了一种数据筛选方法,包括:基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别; ...
【技术保护点】
【技术特征摘要】
1.一种数据筛选方法,其特征在于,包括:基于目标分类网络对训练数据集中包括的多个训练数据进行类别预测,得到多个第一预测分类结果;其中,所述第一预测分类结果对应多个类别;基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值;基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果;基于所述多个第二预测分类结果和所述每个类别对应的增益值,从所述生数据集中确定目标生数据集。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值,包括:基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集获得增益相关信息;其中,所述验证数据集中包括多个验证分类结果,每个所述验证分类结果对应一个第一预测分类结果;所述增益相关信息包括:每个类别的精确率、每个类别的召回率和每个类别的支持度;基于所述每个类别的精确率和所述每个类别的召回率,确定每个类别的F1值;基于所述每个类别的F1值和所述每个类别的支持度,确定所述多个类别中每个类别对应的增益值。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述目标分类网络对生数据集中包括的多个生数据进行类别预测,得到多个第二预测分类结果,包括:针对所述多个生数据中的每个生数据,基于所述目标分类网络对所述生数据进行类别预测,得到所述生数据对应所述多个类别中每个类别的概率值;基于所述每个类别对应的概率值,基于所述概率值最大的类别确定所述生数据对应的所述第二预测分类结果。4.根据权利要求3所述的方法,其特征在于,在基于所述每个类别对应的概率值,基于所述概率值最大的类别确定所述生数据对应的所述第二预测分类结果之后,还包括:基于每个所述生数据对应的所述每个类别的概率值,确定每个所述生数据对应的熵值;在基于所述多个第一预测分类结果和所述训练数据集对应的验证数据集确定所述多个类别中每个类别对应的增益值之后,还包括:基于所述每个类别对应的增益值对所述多个类别进行排序,确定所述增益值最大的k个类别构成目标类别集;其中,所述k为大于1的整数。5.根据权利要求4所述的方法,其特征在于,所述基于所述多个第二预测分类结果和所述每个类别对应的增益,从所述生数据集中确定目标生数据集,包括:基于所述多个第二预测分类结果和所述每个类别对应的增益,根据第一筛选策略从所述生数据集中确定第一数据集;基于所述多个第二预测分类结果,根据第二筛选策略从所述生数据集中确定第二数据集;基于所述第一数据集和所述第二数据集,确定所述...
【专利技术属性】
技术研发人员:江霜艳,邓周,杨蕴凯,
申请(专利权)人:贝壳找房北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。