【技术实现步骤摘要】
一种数据集筛选方法与系统
[0001]本专利技术属于数据处理领域,具体涉及一种数据集筛选方法与系统。
技术介绍
[0002]深度卷积神经网络(Convolutional Neural Networks)在计算机视觉的诸多研究领域(例如图像分类,目标检测和场景分割)已展现出其所具有的潜力,并通过在大数据量的有监督数据集上训练卷积神经网络模型得以应用。但是由于收集大量标记图像的成本十分高昂,并且大数据量数据的存储与模型训练过程费事费力,因此该方法在实践中具有很大的局限性。这些应用中暴露出的问题引出了一个关键问题:“采用何种方法去选择数据,才能在固定数据规模的情况下获得最高的准确性。”而核心数据集筛选算法是解决此问题的常用方法之一。
[0003]核心数据集筛选问题考虑了在一个已经完全标记的数据集中,使用算法尝试筛选出一个子集,以便在选定的子集上所训练模型与在整个数据集上训练的模型性能尽可能接近。
[0004]然而传统的针对于支持向量机等机器学习方法的诸多核心数据集选择算法,实验结果表明其在应用于CNN时无效。这种无 ...
【技术保护点】
【技术特征摘要】
1.一种数据集筛选方法,其特征在于,包括以下步骤:将原始数据集经过不同抽样处理生成m个不同的初始数据集;分别将m个不同的初始数据集分别输入到mp个分类器中,得到mp个不同的分类器输出结果;将所述mp个不同的分类器输出结果输入到投票网络中,得到具有均值和分歧值的数据集合;将所述具有均值和分歧值的数据集合进行迭代筛选,当满足停止条件时,迭代结束,输出核心数据集。2.根据权利要求1所述的数据集筛选方法,其特征在于,所述将原始数据集经过不同抽样处理生成m个不同的初始数据集,包括如下步骤:使用ImageNet预训练的ResNet50模型的前174层作为特征提取网络对原始数据集进行数据特征提取;根据所提取的数据特征计算原始数据集中两两样本之间的相互距离dist
ij
,并得到距离集合,计算公式如下:其中,i、j表示原始数据集中不同样本,u表示样本的数据特征张量中的不同维度,n表示数据特征张量维度总数,F
iμ
、F
jμ
表示原始数据集中样本i、j对应维度u的数据特征张量值;根据距离集合计算数据的分布密度,并得到密度集合;按照数据的分布密度,从大到小的顺序对密度集合进行降序排序,取其中前mk个数据所对应的样本作为初始数据集。3.根据权利要求2所述的数据集筛选方法,其特征在于,所述数据的分布密度计算过程如下:按照两两样本之间的相互距离从小到大的顺序对距离集合进行升序排序,取排序后最近的八个数据样本的相互距离计算数据样本x
i
的分布密度,公式如下:其中,m
′
为八个样本中的一个样本,density(x
i
)为数据样本x
i
的分布密度。4.根据权利要求1所述的数据集筛选方法,其特征在于,所述分类器为经不同初始化参数初始化的ResNet50网络分类模型。5.根据权利要求4所述的数据集筛选方法,其特征在于,所述ResNet50网络分类模型的损失函数与分类回归函数描述为如下公式:损失函数与分类回归函数描述为如下公式:其中,loss为损失函数,表示损失函数求解过程,R为数据点的集合,参数w指代每次迭代过程中深度学习模型算法训练的出的权值,在训练的整个损失函数求解过
程中,此分类问题的任何一类c中的类损失回归求解过程η
c
(x)均为满足λ
η
‑
Lipschitz连续条件的求解过程;在上述条件的约束下,一个C类图像分类深度学习数据集表示为从空间在上述条件的约束下,一个C类图像分类深度学习数据集表示为从空间之中通过人工筛选过程收集的一系列数据点的集合,其中[N]={1,
…
,N}表示数据集中数据的数量N,按照深度学习数据划分规则将其划分为两部分,分别为数量为n的训练数据集T:{x
i
,y
i
}
i∈[n]
与数量为ml的训练数据集V:{x
i
,y
i
}
i∈[ml]
,x
i
为数据样本,y
i
表示数据样本的原始标签。6.根据权利要求1所述的数据集筛选方法,其特征在于,将所述mp个不同的分类器输出结果作为待选数据集R输入到投票网络中;在投票网络中,将待选数据集R中数据(x
m
,y
m
)进行分析;计算待选数据集中数据的一组概率预测值P...
【专利技术属性】
技术研发人员:王纵驰,王建兴,付利红,孙天姿,王诗慧,张朗,刘翔宇,史淼,
申请(专利权)人:航天神舟智慧系统技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。