一种基于分级迭代的大规模图像样本标注方法及系统技术方案

技术编号:11909080 阅读:148 留言:0更新日期:2015-08-20 00:20
本发明专利技术涉及一种基于分级迭代的大规模图像样本标注方法及系统,所述方法包括:利用半自动软件工具标注原始数据集中的目标;对已标注的原始数据集进行粗采集,得到正样本集和负样本集;利用正样本集和负样本集进行训练,得到目标检测器;利用目标检测器对原始数据集进行精采集,更新正样本集和负样本集;判断正样本集中的样本数量是否达到预设数量或检测器性能是否达到预设标准,如果未达到,利用更新的正样本集和负样本集重新训练目标检测器,迭代精采集过程,否则结束迭代。本发明专利技术利用软件工具使得标注工作更快速更高效,整个过程不但提高了标注和采集的速度,节省了人力成本,通过粗采集和精采集的结合提高了样本的精确性。

【技术实现步骤摘要】

本专利技术涉及视频、图像处理
,尤其涉及一种基于分级迭代的大规模图像样本标注方法及系统
技术介绍
随着I nternet和数字图像技术的发展,图像数据呈现海量增长,对于很多机器学习领域的学者而言,从海量的视频或图像数据中采集到我们所需的目标的样本集,是一件费时费力的事,而且往往最终得到的样本集不一定够数或者不一定全都有效。采集之前首先要对视频或图片集进行标注,视频标注可以分为手动标注和自动标注两类。传统的人工标注方法每次只能对一幅图像中的物体区域进行标注,仅仅使用人工来进行标注越来越费时耗力。因此越来越多的学者研宄通过利用机器学习方法来进行自动图像标注,但是使用统计学习方法也需要大量的已标注样本作为训练集,然而,目前存在的已标注数据集相对较少。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于分级迭代的大规模图像样本标注方法及系统。本专利技术解决上述技术问题的技术方案如下:一种基于分级迭代的大规模图像样本标注方法,包括如下步骤:步骤1,利用半自动软件工具标注原始数据集中的目标;步骤2,对已标注的原始数据集进行粗采集,得到正样本集和负样本集;步骤3,利用正样本集和负样本集进行训练,得到目标检测器;步骤4,利用目标检测器对原始数据集进行精采集,更新正样本集和负样本集;步骤5,判断正样本集中的样本数量是否达到预设数量或检测器性能是否达到预设标准,如果未达到,返回步骤3,否则结束迭代。本专利技术的有益效果是:本专利技术通过半自动方式标注视频或图片集中的目标之后,先“粗采集”部分数据来训练生成检测器,再通过检测器“精采集”来精确获取更多的目标的样本,通过迭代“精采集”的过程,利用新得到的样本训练出新的更精确的检测器进一步检测、切割目标。本专利技术利用软件工具使得标注工作更快速更高效,整个过程不但提高了标注和采集的速度,节省了人力成本,通过粗采集和精采集的结合提高了样本的精确性。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,步骤I对目标在原始数据集中出现的时间和位置进行标注,将目标信息保存在标注文档中。采用上述进一步方案的有益效果:为目标的切割提供依据,实现对目标的精准切害J,形成正样本集和负样本集。进一步,步骤2中对已标注的原始数据集进行粗采集,得到正样本集和负样本集的具体操作为:步骤2.1,从已标注的原始数据集中切割目标,得到的正样本形成一次正样本集;步骤2.2,从原始数据集中切割不含目标的图片作为负样本集。采用上述进一步方案的有益效果:进一步,步骤4中利用目标检测器对原始数据集进行精采集,更新正样本集和负样本集的具体操作为:步骤4.1,利用检测器对原始数据集进行检测;步骤4.2,将原始数据集中检测到的目标切割下来,更新正样本集;步骤4.3,从原始数据集中切割不含目标的图片,更新负样本集。采用上述进一步方案的有益效果:进一步,上述技术方案还包括利用检测器对原始数据集进行检测过程中,为所有得到的目标打分,并按分数高低进行排序;步骤4.2中将原始数据集中检测到的目标切割下来得到检测所得正样本集,检测所述检测所得正样本集中是否存在分数低于阈值的样本,如果存在,将其作为负样本移入负样本集,剩下的分数高于阈值的样本即为正样本,用于更新正样本集,否则直接用检测所得正样本集更新正样本集。采用上述进一步方案的有益效果:防止误将非目标的样本作为目标样本放入正样本集,进一步提尚样本的准确性。本专利技术解决上述技术问题的另一技术方案如下:一种基于分级迭代的大规模图像样本标注系统,包括标注模块、粗采集模块、目标检测器生成模块、精采集模块和迭代控制丰吴块;所述标注模块,用于利用半自动软件工具标注原始数据集中的目标;所述粗采集模块,用于对已标注的原始数据集进行粗采集,得到正样本集和负样本集;所述目标检测器生成模块,用于利用正样本集和负样本集进行训练,得到目标检测器;所述精采集模块,用于利用目标检测器对原始数据集进行精采集,更新正样本集和负样本集;所述迭代控制模块,用于判断正样本集中样本数量是否达到预设数量或检测器性能是否达到预设标准,如果未达到控制目标检测器生成模块和精采集模块迭代,直至满足预设数量或预设标准。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述标注模块对目标在原始数据集中出现的时间和位置进行标注,将目标信息保存在标注文档中。进一步,所述粗采集模块包括第一切割单元和第二切割单元:所述第一切割单元,用于从已标注的原始数据集中切割目标,得到的正样本形成一次正样本集;所述第二切割单元,用于从原始数据集中切割不含目标的图片作为负样本集。进一步,所述精采集模块包括检测单元、第三切割单元和第四切割单元;所述检测单元,利用检测器对原始数据集进行检测;所述第三切割单元,用于将原始数据集中检测到的目标切割下来,更新正样本集;所述第四切割单元,从原始数据集中切割不含目标的图片,更新负样本集。进一步,所述精采集模块还包括排序单元和监督单元;所述排序单元,用于在检测器对原始数据集进行检测过程中,为所有得到的目标打分,并按分数高低进行排序;所述监督单元,用于将原始数据集中检测到的目标切割下来得到检测所得正样本集,检测所述检测所得正样本集中是否存在分数低于阈值的样本,如果存在,将其作为负样本移入负样本集,剩下的分数高于阈值的样本即为正样本,用于更新正样本集,否则直接用检测所得正样本集更新正样本集。【附图说明】图1为本专利技术所述一种基于分级迭代的大规模图像样本标注方法流程图;图2为本专利技术所述一种基于分级迭代的大规模图像样本标注系统框图。附图中,各标号所代表的部件列表如下:1、标注模块,2、粗采集模块,3、目标检测器生成模块,4、精采集模块,5、迭代控制模块,21、第一切割单元,22、第二切割单元,41、检测单元,42、第三切割单元,43、第四切割单元,44、排序单元,45、监督单元。【具体实施方式】以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,一种基于分级迭代的大规模图像样本标注方法,包括如下步骤:步骤1,利用半自动软件工具标注原始数据集中的目标;步骤2,对已标注的原始数据集进行粗采集,得到正样本集和负样本集;步骤3,利用正样本集和负样本集进行训练,得到目标检测器;步骤4,利用目标检测器对原始数据集进行精采集,更新正样本集和负样本集;步骤5,判断正样本集中的样本数量是否达到预设数量或检测器性能是否达到预设标准,如果未达到,返回步骤3,否则结束迭代。具体地,实现流程如下:标注过程:1.收集或网上下载一部分包含目标的视频集或图片集,作为原始数据集,用于采集目标。2.通过自制软件工具标注部分原始数据集中的目标。如果是视频集,标注出目标所在的视频帧范围、在帧上的空间坐标点;具体的,标注后会将目标的信息保存在标注文档中,保存的信息有:目标类别、目标出现开始帧、目标出现结束帧、目标在图像帧中位置的左上角坐标(x,y)、标注矩形的宽W和高H和视频名称。如果是图片集,标注出目标所在图片的空间坐标点;具体的,标注后会将目标的信息保存在标注文档中,保存的信息有:目标类另O、目标在图像帧中位置的左上角坐标U,y)、标注矩形的宽W和高H和图片名称。粗采集过程:3.根据本文档来自技高网...

【技术保护点】
一种基于分级迭代的大规模图像样本标注方法,其特征在于,包括如下步骤:步骤1,利用半自动软件工具标注原始数据集中的目标;步骤2,对已标注的原始数据集进行粗采集,得到正样本集和负样本集;步骤3,利用正样本集和负样本集进行训练,得到目标检测器;步骤4,利用目标检测器对原始数据集进行精采集,更新正样本集和负样本集;步骤5,判断正样本集中的样本数量是否达到预设数量或检测器性能是否达到预设标准,如果未达到,返回步骤3,否则结束迭代。

【技术特征摘要】

【专利技术属性】
技术研发人员:葛仕明杜丰宇解凯旋杨睿孙利民
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1