训练数据筛选方法、装置及计算机可读存储介质制造方法及图纸

技术编号：36001537 阅读：61 留言：0更新日期：2022-12-17 23:19

本发明专利技术公开了一种训练数据筛选方法、装置及计算机可读存储介质，其中，所述方法包括：将已标注训练数据和未标注训练数据输入深度主动学习模型；基于所述深度主动学习模型的卷积神经网络，确定所述已标注训练数据的第一全连接层值和所述未标注训练数据的第二全连接层值；根据所述第一全连接层值和所述第二全连接层值确定每个所述已标注训练数据与每个所述未标注训练数据之间的欧式距离；根据所述欧式距离从所述未标注训练数据中确定目标训练数据。本发明专利技术旨在提高筛选出的训练数据的代表性，以降低训练成本，提高训练模型的效率。提高训练模型的效率。提高训练模型的效率。

全部详细技术资料下载

【技术实现步骤摘要】
训练数据筛选方法、装置及计算机可读存储介质

[0001]本专利技术涉及深度学习领域，尤其涉及一种训练数据筛选方法、装置及计算机可读存储介质。

技术介绍

[0002]深度主动学习模型在计算机视觉和模式识别的许多研究领域取得了前所未有的成功，如图像分类、目标检测和场景分割。虽然深度主动学习模型在许多任务中普遍成功，但它们有一个主要缺点；他们需要大量的标记数据才能学习大量的参数，尤其是工业场景图像分类。
[0003]在相关技术中，工业场景获取缺陷数据成本高，难度较大且缺陷类型多，因此这些有缺陷数据标注需要有经验的人进行标注，且标注量大、耗时费力，因此表现出有标注样本获取代价非常昂贵。而主动学习查询策略一般是通过确定样本数据的不确定性来进行筛选。但是由于不确定性的单独采样会导致采样偏差，而忽略了用于模型训练的样本数据的分布，筛选出来的样本数据作为训练数据，不利于提高模型性能，反而需要标注更多的样本数据，造成标注成本增加，因此，目前训练数据筛选代表性不高，不利于提高模型性能。
[0004]上述内容仅用于辅助理解本专利技...

【技术保护点】

【技术特征摘要】
1.一种训练数据筛选方法，其特征在于，所述方法包括：将已标注训练数据和未标注训练数据输入深度主动学习模型；基于所述深度主动学习模型的卷积神经网络，确定所述已标注训练数据的第一全连接层值和所述未标注训练数据的第二全连接层值；根据所述第一全连接层值和所述第二全连接层值确定每个所述已标注训练数据与每个所述未标注训练数据之间的欧式距离；根据所述欧式距离从所述未标注训练数据中确定目标训练数据。2.如权利要求1所述的训练数据筛选方法，其特征在于，所述根据所述欧式距离从所述未标注训练数据中确定目标训练数据的步骤包括：确定每个所述未标注训练数据对应的最小欧式距离为目标欧式距离；将所述目标欧式距离进行降序排列；确定前预设数量的目标欧式距离对应的未标注训练数据为所述目标训练数据。3.如权利要求1所述的训练数据筛选方法，其特征在于，所述将已标注训练数据和未标注训练数据输入深度主动学习模型的步骤之后，还包括：根据所述已标注训练数据训练所述深度主动学习模型；所述根据所述卷积神经网络确定所述已标注训练数据的第一全连接层值和所述未标注训练数据的第二全连接层值的步骤包括：基于训练后的所述深度主动学习模型的卷积神经网络确定所述第一全连接层值和所述第二全连接层值。4.如权利要求1所述的训练数据筛选方法，其特征在于，所述将已标注训练数据和未标注训练数据输入深度主动学习模型的步骤之前，还包括：将主动选择模块封装为功能函数；将所述功能函数连接到所述卷积神经网络的分类模块之后，以组成所述深度主动学习模型。5.如权利要求1所述的训练数据筛选方法，其特征在于，所述根据所述欧式距离从所述未标注训练数据中确定目标训练数据的步骤之后，还包括：获取进行标注后的所述目标训练数据；根据标注后的所述目标训练数据更新所述已标注训练数据；根...

【专利技术属性】
技术研发人员：黄耀，孟超超，
申请(专利权)人：北京阿丘科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人