System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种非结构化数据的管理方法、系统、装置及存储介质。
技术介绍
1、非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片,html、各类报表、图像和音频/视频信息等等网络。
2、对于现在的无人驾驶、人脸识别、智慧安防等领域,常用大量图像来进行模型训练,而在进行训练之前,对图像进行数据清晰与数据标注是必须的,在现有针对图像的数据标注中,一般是通过人工的方式对图像进行标注,通过人工的方式在图像进行框选,如框选图像中的车辆、行人等,但是人工标注存在以下问题:1、消耗大量的人力成本,而且在大量标注后人会出现效率低下和标注错误的情况;2、需要标注大规模的数据集时十分耗费人力成本;3、标注完的数据还需要进行人工审核全部才能使用。
3、因此,亟需一种针对非结构化数据的管理方法,用于解决上述现有技术中存在的问题。
技术实现思路
1、为了解决上述技术问题,本申请提供了一种非结构化数据的管理方法、系统、装置及存储介质,使得非结构化数据处理中的图像标注效率得到提高。
2、下面对本申请中提供的技术方案进行描述:
3、本申请第一方面提供了一种非结构化数据的管理方法,包括:
4、基于人工标注的图像集获取已标注好的标注任务集合;
5、确定所述标注任务集合中每个任务的特征集;
6、基于所述特征集在待标注图像上建立与目标任务相关
7、确定每一个目标任务中的特征与所述特征集的相似度;
8、设置预设阈值,将相似度大于或等于所述预设阈值对应的目标任务关联的虚拟标注实体映射到所述待标注图像上,将相似度小于所述预设阈值对应的第二任务关联的虚拟标注附加上可选择的审核浮窗;
9、将含有所述审核浮窗的待标注图像送由审核人员审核,并采集所述审核人员在所述审核框上的操作记录,所述操作记录包括在所述审核浮窗上的点选以及在所述待标注图像上的框选;
10、通过所述操作记录判断所述审核人员是否点击所述审核浮窗上的确定框,若是,则将所述第二任务关联的虚拟标注实体映射到所述待标注图像上,并将所述审核浮窗去除;
11、当所述审核人员点击所述审核浮窗上的否定框时,则取消所述第二任务及其关联的虚拟标注。
12、可选的,在所述采集所述审核人员在所述审核框上的操作记录之后,所述管理方法还包括:
13、采集所述审核人员在所述待标注图像上的框选操作,并将所述框选操作对应在所述待标注图像的位置确定为第三任务;
14、确定所述第三任务的特征集;
15、将所述第三任务的特征集用于进行与下一待标注图像的相似度的确定。
16、可选的,当所述审核人员点击所述审核浮窗上的否定框时:
17、确定所述否定框对应的目标审核浮窗,并获取所述目标审核浮窗对应的相似度的集合;
18、基于所述相似度的集合修改所述预设阈值。
19、可选的,所述获取所述目标审核浮窗对应的相似度的集合之后,所述管理方法还包括:
20、基于所述相似度的集合确定出现次数最多的目标相似度;
21、将所述目标相似度设置为相似度比较时的最低标准值;
22、当进行下一次相似度的比较时,将相似度小于所述最低标准值对应的第三任务关联的虚拟标注取消。
23、可选的,所述将相似度小于所述最低标准值对应的第三任务关联的虚拟标注取消包括:
24、在所述待标注图像上对应所述第三任务的位置附上提醒标签,所述提醒标签用于提醒所述审核人员进行标注。
25、可选的,在所述基于所述特征集在待标注图像上建立与目标任务相关联的虚拟标注之前,所述管理方法还包括:
26、获取待标注图像集,基于图像模糊度将所述待标注图像集划分为清晰图像与模糊图像;
27、基于所述特征集在所述清晰图像上建立与目标任务相关联的虚拟标注;
28、将所述模糊图像送往人工标注。
29、可选的,在所述基于图像模糊度将所述待标注图像集划分为清晰图像与模糊图像之后,在所述将所述模糊图像送往人工标注之前,所述管理方法还包括:
30、将所述模糊图像进行清晰化处理。
31、本申请第二方面提供了一种非结构化数据的管理系统,包括:
32、获取单元,用于基于人工标注的图像集获取已标注好的标注任务集合;
33、第一确定单元,用于确定所述标注任务集合中每个任务的特征集;
34、第一建立单元,用于基于所述特征集在待标注图像上建立与目标任务相关联的虚拟标注;
35、第二确定单元,用于确定每一个目标任务中的特征与所述特征集的相似度;
36、第一处理单元,用于设置预设阈值,将相似度大于或等于所述预设阈值对应的目标任务关联的虚拟标注实体映射到所述待标注图像上,将相似度小于所述预设阈值对应的第二任务关联的虚拟标注附加上可选择的审核浮窗;
37、第二处理单元,用于将含有所述审核浮窗的待标注图像送由审核人员审核,并采集所述审核人员在所述审核框上的操作记录,所述操作记录包括在所述审核浮窗上的点选以及在所述待标注图像上的框选;
38、判断单元,用于通过所述操作记录判断所述审核人员是否点击所述审核浮窗上的确定框,若是,则将所述第二任务关联的虚拟标注实体映射到所述待标注图像上,并将所述审核浮窗去除;
39、第一取消单元,用于当所述审核人员未点击所述审核浮窗上的确定框时,则取消所述第二任务及其关联的虚拟标注。
40、可选的,所述管理系统还包括:
41、采集单元,用于采集所述审核人员在所述待标注图像上的框选操作,并将所述框选操作对应在所述待标注图像的位置确定为第三任务;
42、第三确定单元,用于确定所述第三任务的特征集;
43、第三处理单元,用于将所述第三任务的特征集用于进行与下一待标注图像的相似度的确定。
44、可选的,所述管理系统还包括:
45、第四确定单元,用于确定所述否定框对应的目标审核浮窗,并获取所述目标审核浮窗对应的相似度的集合;
46、修改单元,用于基于所述相似度的集合修改所述预设阈值。
47、可选的,所述管理系统还包括:
48、第五确定单元,用于基于所述相似度的集合确定出现次数最多的目标相似度;
49、设置单元,用于将所述目标相似度设置为相似度比较时的最低标准值;
50、第二取消单元,用于当进行下一次相似度的比较时,将相似度小于所述最低标准值对应的第三任务关联的虚拟标注取消。
51、可选的,所述第二取消单元包括:
52、设置模块,用于在所述待标注图像上对应所述第三任务的位置附上提醒标签,所述提醒标签本文档来自技高网...
【技术保护点】
1.一种非结构化数据的管理方法,其特征在于,包括:
2.根据权利要求1所述的管理方法,其特征在于,在所述采集所述审核人员在所述审核框上的操作记录之后,所述管理方法还包括:
3.根据权利要求1或2所述的管理方法,其特征在于,当所述审核人员点击所述审核浮窗上的否定框时:
4.根据权利要求3所述的管理方法,其特征在于,所述获取所述目标审核浮窗对应的相似度的集合之后,所述管理方法还包括:
5.根据权利要求4所述的管理方法,其特征在于,所述将相似度小于所述最低标准值对应的第三任务关联的虚拟标注取消包括:
6.根据权利要求1或2所述的管理方法,其特征在于,在所述基于所述特征集在待标注图像上建立与目标任务相关联的虚拟标注之前,所述管理方法还包括:
7.根据权利要求6所述的管理方法,其特征在于,在所述基于图像模糊度将所述待标注图像集划分为清晰图像与模糊图像之后,在所述将所述模糊图像送往人工标注之前,所述管理方法还包括:
8.一种非结构化数据的管理系统,其特征在于,包括:
9.一种非结构化数据的管理装置
10.一种计算机可读的存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至7中任一项所述管理方法。
...【技术特征摘要】
1.一种非结构化数据的管理方法,其特征在于,包括:
2.根据权利要求1所述的管理方法,其特征在于,在所述采集所述审核人员在所述审核框上的操作记录之后,所述管理方法还包括:
3.根据权利要求1或2所述的管理方法,其特征在于,当所述审核人员点击所述审核浮窗上的否定框时:
4.根据权利要求3所述的管理方法,其特征在于,所述获取所述目标审核浮窗对应的相似度的集合之后,所述管理方法还包括:
5.根据权利要求4所述的管理方法,其特征在于,所述将相似度小于所述最低标准值对应的第三任务关联的虚拟标注取消包括:
6.根据权利要求1或2...
【专利技术属性】
技术研发人员:石志国,王睿宇,王宇航,骆亦飞,高嵩,章敏,
申请(专利权)人:北京市大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。