当前位置: 首页 > 专利查询>郑津专利>正文

一种精准无损标注图像实例的分布式方法及系统技术方案

技术编号:20389738 阅读:16 留言:0更新日期:2019-02-20 02:48
本发明专利技术公开了一种精准无损标注图像实例的分布式方法及分布式系统,该方法实现了像素级精准标定图像实例轮廓,并在此基础上自动生成目标实例掩膜,相较于传统的边界框标定方式,更为精准;同时,该方法不受限于标注目标的属性,如必须是规则的人体、物体等;因此,在应对拥挤、遮挡、分割、孔洞等特殊形态呈现的标注目标时,仍能保证标注目标实例的完整性和一致性,表现出良好的泛化性能,从而为目标识别任务提供更为有力保障。

【技术实现步骤摘要】
一种精准无损标注图像实例的分布式方法及系统
本专利技术首先涉及一种精准无损标注图像实例的分布式方法;其次本专利技术还涉及一种精准无损标注图像实例的分布式系统。
技术介绍
目前,随着人工智能和深度学习的发展,对于数据集的数量和质量的要求也越来越高,为了获取到用于训练的数据集,需要借助图像标注工具对图像上的实例进行标注出来,以便在训练深度学习模型的时候提取到更加有用的实例特征,从而提高模型的泛化能力。传统的图像标注任务多利用附加文字、线条等对图像语义进行整体描述或局部细节进行提示,便于用户更清晰地理解图像含义,也易于研究人员对图像语义进行更深层次的探究。在常规做法中,或完全借助人工,耗时长、效率低,或借助已有各类成熟的图像处理软件,但此类软件存在非图像任务定制工具的缺陷,尤其是对原始图像标注时所带来的破坏,使得其难于大规模使用。其次,大多数标注工具只是利用矩形框对图像中的实例进行区分,并没有通过实例的轮廓进行标注以区分不同的对象,导致实例本身以外的区域标注为实例的一部分。此外,当处理存在比较密集实例的图像时,会不可避免的出现标注区域重叠的现象,从而造成在训练模型的时候提取到的实例特征不准确,最终导致训练模型的泛化能力低,效果不好。因此,对能够更加高效和精确地标注实例的标注方法及标注系统有着极大的需求。
技术实现思路
本专利技术为了解决现有技术中所存在的问题,在此提供一种高效、无损、精准地标注图像实例的精准无损标注图像实例的分布式方法及系统。本专利技术在此所提供的一种精准无损标注图像实例的分布式方法,包括以下步骤:步骤1:根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效,自动计算本次给某特定标注人员分发的标注任务的工作量,依据计算出的工作量从标注总数据库中自动抽取产生本次分发给该特定标注人员的待标注图像集,将其副本添加安全校验信息后打包,作为本次分发给该特定标注人员的标注任务,并进行分布式分发;步骤2:在待标注图像的副本上进行逐像素的实例轮廓描绘,暂存表达实例轮廓的像素点坐标信息,形成轮廓坐标序列;步骤3:依据经步骤2描绘所形成的平滑且封闭的实例轮廓进行自动填充形成实例掩膜,自动暂存该实例掩膜所涉及的像素点坐标簇形成实例掩膜坐标簇;步骤4:保存与待标注图像原始信息关联后的标注成果,含实例轮廓坐标及实例掩膜坐标;本次标注任务完成后,将本次分发标注任务的标注成果回传给标注总数据库;步骤5:依据步骤4中所保存的分发标注任务的标注成果,与标注总数据库中的信息进行比对,判断某一幅标注图像是否存在多名标注人员的交叉标注,若存在交叉标注,自动筛选合并得到该幅图像的最优标注成果,并保存更新标注总数据库;反之则直接将步骤4中所保存的标注成果直接保存至标注总数据库。本专利技术所提供的方法自动记录的实例轮廓坐标序列和实例掩膜坐标簇皆产生于待标注图像的副本上,故待标注图像的原始图像并未受到损坏,实现了无损标注,同时,该方法采用轮廓描绘方式对待标注图像实现实例的标注且在标注过程中对所形成的实例轮廓进行有效性检测和提示,使标注成果更为精准;且该方式采用分布式方式分发和回收标注任务,实现了高效标注。进一步的,所述步骤1还将进行标注任务分发,在进行标注任务分发时需根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效综合考虑计算本次给某特定标注人员分发的标注任务的工作量;工作量的计算采用Select*算法,具体步骤如下:步骤11:获取当前标注任务全体数据集的状态信息;步骤12:依据步骤11中的数据,根据历史工作绩效计算分发工作量;步骤13:根据步骤12所确定的工作量,从原始全体数据集的已标注图片子集和待标注图片子集中按比例抽取组合形成当次标注任务分发的子数据集;步骤14:根据步骤13得到的子数据集,形成待标注图像集,制作副本,添加安全校验信息,并进行分发;其中,当前应分发的工作量的计算可用下述公式表示:上式中,Smin和Smax分别表示本次工作量分发的下限和上限,由系统在此区间随机抽取一整数值作为本次应分发的工作量;TD、C、AIm、AIn、APi皆表达本次申请任务的标注人员的历史工作绩效参数,依次表示历次分发任务难度系数、任务完成度系数、平均图片标注时间系数、平均实例标注时间系数、以及平均像素标注时间系数;N表示该标注人员接受标注任务的总次数,NU为数据集中未标注图片数量、NL为标注次数在(0、Lmax)之间的图片数量,其中Lmax为超参数,建议设置为5;Min()和Max()操作分别为在参数列表中取最小值或最大值。进一步的,所述步骤2中所述的逐像素的实例轮廓描绘通过以下方式进行:1)由标注人员在待标注图像副本上以逐像素点击的方式指明某实例轮廓的所有轮廓点,并由计算机自动地记录这些轮廓点的坐标,最终所获得的坐标序列用于表达某实例的完整轮廓;2)由标注人员在待标注图像副本上以像素点击的方式仅指明某实例轮廓的关键轮廓点,由计算机自动地补全这些关键轮廓点之间的轮廓点,并记录所有获得的轮廓点坐标,用于表达某实例的完整轮廓。进一步的,所述步骤3中实例掩膜坐标簇通过以下步骤形成:1)选定某实例轮廓包围面积中任一坐标点作为起点;2)以该点坐标为原点,以实例轮廓坐标为边界,遍历获取所有该实例轮廓包围面积中的像素点坐标,并将其标识为该实例的掩膜。进一步的,所述步骤5中进行最优标注成果的汇总与标注总数据库的更新通过LabelAggregation算法实现,具体步骤如下:步骤51:抽取当前标注成果,形成标注成果集Li,开始对其进行遍历;步骤52:搜索标注总数据库,若标注总数据库中已存在标注成果集Di,则Li与Di求交集InS,并将InS写入Di记录,以保存最优标注成果;若搜索返回值为空,表示当前索引的图片样本在标注总数据库中无记录,即尚未被标注,直接将Li写入标注总数据库;其中,最优标注成果包括最优轮廓标注及最优掩膜标注,两者皆可能来自不同的标注人员;标注成果集Di为指其它标注人员对同一待标注图像的子集副本进行标注后所反馈的成果集合。此外,本专利技术在此还提供了一种高效、无损、精准地标注图像实例的精准无损标注图像实例的分布式系统,包括:1)图片抽取分发模块:负责自动抽取待标注图片原始集的子集,对之制作副本,并进行分布式分发;2)图片加载模块:将待标注图片子集加载到本系统工作区中,并实时跟踪和刷新标注人员的编辑操作,是后续标注操作的基础;3)图片导航模块:允许在同一文件路径下不同图片文件之间进行快速切换,以提高标注操作的效率;4)标注模块:包括标注颜色选定、缩放图片、平移图片、开始新的实例轮廓、取消轮廓、精修轮廓、轮廓封闭性检查、生成掩膜、撤销生成掩膜等功能;5)保存模块:提供了将当前图片标注成果单独地或当前工作周期内的所有标注批量化地保存至标注端后台数据库中的功能;6)标注成果汇总模块:负责汇总各分布式标注端后台数据库中已保存的标注成果,自动筛选出其中的最优标注成果,保存入标注总数据库。本专利技术的有益效果是:A.本专利技术所涉及的标注方法实现了像素级精准标定图像实例轮廓,并在此基础上自动生成目标实例掩膜,相较于传统的边界框标定方式,更为精准;同时,该方法不受限于标注目标的属性,如必须是规则的人体、物体等;因此,在应对拥挤、遮挡、分割、孔洞等特殊形态呈现本文档来自技高网...

【技术保护点】
1.一种精准无损标注图像实例的分布式方法,其特征在于:该方法包括以下步骤:步骤1:根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效,自动计算本次给某特定标注人员分发的标注任务的工作量,依据计算出的工作量从标注总数据库中自动抽取产生本次分发给该特定标注人员的待标注图像集,将其副本添加安全校验信息后打包,作为本次分发给该特定标注人员的标注任务,并进行分布式分发;步骤2:在待标注图像的副本上进行逐像素的实例轮廓描绘,暂存表达实例轮廓的像素点坐标信息,形成轮廓坐标序列;步骤3:依据经步骤2描绘所形成的平滑且封闭的实例轮廓进行自动填充形成实例掩膜,自动暂存该实例掩膜所涉及的像素点坐标簇形成实例掩膜坐标簇;步骤4:保存与待标注图像原始信息关联后的标注成果,含实例轮廓坐标及实例掩膜坐标;本次标注任务完成后,将本次分发标注任务的标注成果回传给标注总数据库;步骤5:依据步骤4中所保存的分发标注任务的标注成果,与标注总数据库中的信息进行比对,判断某一幅标注图像是否存在多名标注人员的交叉标注,若存在交叉标注,自动筛选合并得到该幅图像的最优标注成果,并保存更新标注总数据库;反之则直接将步骤4中所保存的标注成果直接保存至标注总数据库。...

【技术特征摘要】
1.一种精准无损标注图像实例的分布式方法,其特征在于:该方法包括以下步骤:步骤1:根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效,自动计算本次给某特定标注人员分发的标注任务的工作量,依据计算出的工作量从标注总数据库中自动抽取产生本次分发给该特定标注人员的待标注图像集,将其副本添加安全校验信息后打包,作为本次分发给该特定标注人员的标注任务,并进行分布式分发;步骤2:在待标注图像的副本上进行逐像素的实例轮廓描绘,暂存表达实例轮廓的像素点坐标信息,形成轮廓坐标序列;步骤3:依据经步骤2描绘所形成的平滑且封闭的实例轮廓进行自动填充形成实例掩膜,自动暂存该实例掩膜所涉及的像素点坐标簇形成实例掩膜坐标簇;步骤4:保存与待标注图像原始信息关联后的标注成果,含实例轮廓坐标及实例掩膜坐标;本次标注任务完成后,将本次分发标注任务的标注成果回传给标注总数据库;步骤5:依据步骤4中所保存的分发标注任务的标注成果,与标注总数据库中的信息进行比对,判断某一幅标注图像是否存在多名标注人员的交叉标注,若存在交叉标注,自动筛选合并得到该幅图像的最优标注成果,并保存更新标注总数据库;反之则直接将步骤4中所保存的标注成果直接保存至标注总数据库。2.根据权利要求1所述的精准无损标注图像实例的分布式方法,其特征在于:所述步骤1还将进行标注任务分发,在进行标注任务分发时需根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效综合考虑计算本次给某特定标注人员分发的标注任务的工作量;工作量的计算采用Select*算法,具体步骤如下:步骤11:获取当前标注任务全体数据集的状态信息;步骤12:依据步骤11中的数据,根据历史工作绩效计算分发工作量;步骤13:根据步骤12所确定的工作量,从原始全体数据集的已标注图片子集和待标注图片子集中按比例抽取组合形成当次标注任务分发的子数据集;步骤14:根据步骤13得到的子数据集,形成待标注图像集,制作副本,添加安全校验信息,并进行分发;其中,当前应分发的工作量的计算可用下述公式表示:上式中,Smin和Smax分别表示本次工作量分发的下限和上限,由系统在此区间随机抽取一整数值作为本次应分发的工作量;TD、C、AIm、AIn、APi皆表达本次申请任务的标注人员的历史工作绩效参数,依次表示历次分发任务难度系数、任务完成度系数、平均图片标注时间系数、平均实例标注时间系数、以及平均像素标注时间系数;N表示该标注人员接受标注任务的总次数,NU为数据集中未标注图片数量、NL为标注次数在(0、Lmax)之间的图片数量,其中Lmax为超参数,建议设置为5;Mi...

【专利技术属性】
技术研发人员:郑津向桔冰王杨唐孝冬付茂莹甘子璐张平
申请(专利权)人:郑津
类型:发明
国别省市:四川,51

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1