图片标注方法及装置制造方法及图纸

技术编号:15289801 阅读:62 留言:0更新日期:2017-05-10 16:51
本发明专利技术涉及一种图片标注方法及装置,所述方法包括根据目标任务需求获取互联网图片数据;对获取的互联网图片数据进行数据清洗;根据清洗后的互联网图片数据进行图片标注,并接收图片标注后对应的完成结果;根据所述完成结果生成标注数据集。所述装置包括图片获取单元、图片清洗单元、图片标注单元以及数据集生成单元。本发明专利技术的图片标注方法及装置,可以提高标注数据的数量、质量及标注速度,达到快速、低成本产出高质量数据标注结果的目的,可为后续模型训练提供有效训练数据集合。

Image annotation method and device

The invention relates to an image annotation method and device, the method includes obtaining internet image data according to the target task demand; data cleaning of Internet image data acquisition; image annotation based on Internet image data after cleaning, complete the corresponding results and receive pictures after injection; according to the complete results generated annotation data set. The device comprises an image acquisition unit, a picture cleaning unit, an image annotation unit and a data set generating unit. The invention of the image annotation method and device, can improve the quality and quantity of labeled data, marking speed, achieve rapid, low cost and high quality output data annotation results to provide effective training data for model training set.

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种图片标注方法及装置
技术介绍
随着互联网及智能终端的普及,互联网上的图片数据越来越多也越来越丰富。如何有效利用互联网图片数据,并通过对这些图片数据的采集处理形成训练样本,来完成相关机器学习及深度学习任务成为当前一个重要的问题。目前,为了形成训练模型的样本通常采用做法是寻找网上已经开源可用的图片数据集直接使用,或者自己去拍照搜集相关图片数据,然后对这些数据进行逐一筛选审核,最后生成可用来训练的数据集合。显然,上述方法存在数据类型相对单一,收集速度缓慢,数据量小,处理周期过长等问题。
技术实现思路
针对现有形成训练模型的样本的方法存在数据类型单一,收集速度缓慢,数据量小,成本过高,处理周期过长等问题的缺陷,本专利技术提出如下技术方案:本专利技术一方面提供了一种图片标注方法,包括:根据目标任务需求获取互联网图片数据;对获取的互联网图片数据进行数据清洗;根据清洗后的互联网图片数据进行图片标注,并接收图片标注后对应的完成结果;根据所述完成结果生成标注数据集。可选地,所述根据目标任务需求获取互联网图片数据,包括:通过预设通用数据资源平台或目标类别的垂直类网站获取所述互联网图片数据。可选地,所述方法还包括:获取所述互联网图片数据时,通过预设相同图片及相似图片检索算法将抓取的互联网图片数据与本地已存储的图片数据进行比对;根据比对结果对重复的图片数据进行丢弃,以及,对未出现在本地的图片资源进行下载入库操作。可选地,所述对获取的互联网图片数据进行数据清洗,包括:利用计算机视觉和深度学习处理技术,对保存的互联网图片数据从内容和语义级别进行数据清洗,以滤除不符合预设要求的图片数据。可选地,所述利用计算机视觉和深度学习处理技术,对保存的互联网图片数据从内容和语义级别进行数据清洗,包括:识别所述互联网图片中的物体,并根据识别出的内容对所述互联网图片打标签,以根据打标签的结果滤除不符合预设要求的图片数据;识别所述互联网图片的内容,并生成描述所述互联网图片的内容的短语,以根据短语生成的结果滤除不符合预设要求的图片数据;检测所述互联网图片中的物体的显著性水平,滤除完全无显著性特征的图片;检测所述互联网图片中出现的实体个数,滤除实体个数大于预设数量的图片。可选地,所述检测所述互联网图片中的物体的显著性水平,包括:分析所述互联网图片中像素点的亮度、对比度指标,并根据像素的梯度值和统计学原理确定所述互联网图片的显著性区域。可选地,所述根据清洗后的互联网图片数据进行图片标注,包括:根据清洗后的互联网图片数据生成标注候选数据集合,并根据所述标注候选数据集合确定当前待标注任务;根据预设标注系统后台任务分配算法,将所述当前待标注任务按照预设指标进行标注。可选地,所述根据所述标注任务的完成结果生成标注数据集之前,所述方法还包括:审核所述标注任务的完成结果;相应地,在审核成功后,根据所述标注任务的完成结果生成标注数据集。另一方面,本专利技术还提供了一种图片标注装置,包括:图片获取单元,用于根据目标任务需求获取互联网图片数据;图片清洗单元,用于对获取的互联网图片数据进行数据清洗;图片标注单元,用于根据清洗后的互联网图片数据进行图片标注,并接收图片标注后对应的完成结果;数据集生成单元,用于根据所述标注任务的完成结果生成标注数据集。可选地,所述图片获取单元具体用于通过预设通用数据资源平台或目标类别的垂直类网站获取所述互联网图片数据。可选地,所述图片清洗单元具体用于利用计算机视觉和深度学习处理技术,对保存的互联网图片数据从内容和语义级别进行数据清洗,以滤除不符合预设要求的图片数据。可选地,所述图片清洗单元还用于:识别所述互联网图片中的物体,并根据识别出的内容对所述互联网图片打标签,以根据打标签的结果滤除不符合预设要求的图片数据;识别所述互联网图片的内容,并生成描述所述互联网图片的内容的短语,以根据短语生成的结果滤除不符合预设要求的图片数据;检测所述互联网图片中的物体的显著性水平,滤除完全无显著性特征的图片;检测所述互联网图片中出现的实体个数,滤除实体个数大于预设数量的图片。可选地,所述图片标注单元具体用于根据清洗后的互联网图片数据生成标注候选数据集合,并根据所述标注候选数据集合确定当前待标注任务;以及,根据预设标注系统后台任务分配算法,将所述当前待标注任务按照预设指标进行标注。本专利技术的图片标注方法及装置,通过根据目标任务需求获取互联网图片数据,并对获取的互联网图片数据进行数据清洗,根据清洗后的互联网图片数据进行图片标注,并接收图片标注后对应的完成结果,以根据所述完成结果生成标注数据集,可以提高标注数据的数量、质量及标注速度,达到快速、低成本产出高质量数据标注结果的目的,可为后续模型训练提供有效训练数据集合。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一个实施例的图片标注方法的流程示意图;图2为本专利技术一个实施例的清洗互联网图片数据方法的流程示意图;图3为本专利技术一个实施例的抓取并保存互联网图片数据方法的流程示意图;图4为本专利技术另一个实施例的美食图片标注方法的流程示意图;图5为本专利技术一个实施例的图片标注装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术一个实施例的图片标注方法的流程示意图;如图1所示,该方法包括:S1:根据目标任务需求获取互联网图片数据;作为本实施例的优选,本步骤中可以通过预设通用数据资源平台或目标类别的垂直类网站获取所述互联网图片数据。具体来说,本步骤中通过标注需求确定所需实体的大致范畴,明确需要查找的数据源;具体地,可将互联网图片数据的资源搜索查找分为两个方向:一是通过在预设通用数据资源平台(比如在百度、bing等图片搜素引擎)中搜索相关实体关键字,并获取通用检索结果;二是通过查找相关实体类别的垂直类网站(Verticalwebsite)或资源,并从候选垂直类网站内选取已结构化好的图片数据及相关文字数据。需要说明的是,所述的实体是对具有真实形态或结构,且能够为人们所感知与亲手接触的物体更抽象的统称。举例来说,实体可以指人,如教师、学生等,也可以指物,如书、仓库等客观对象,还可以指抽象的事件,如演出、足球赛等,还可以指事物与事物之间的的联系,如学生选课、客户订货等;所述的结构化好的图片数据是指含有分类类别信息及相关属性信息的图片,例如,一张蛋糕的图片,如果在垂类站中将它显示在了巧克力类-慕斯子类下,而且有制作原料及工艺,那么这张图片就有一个层级的分类结构并且有制作属性信息。S2:对获取的互联网图片数据进行数据清洗;具体来说,当完成图片数据获取的步骤后,需要对图片数据进行清洗。可以理解的是,根据对数据需本文档来自技高网...
图片标注方法及装置

【技术保护点】
一种图片标注方法,其特征在于,包括:根据目标任务需求获取互联网图片数据;对获取的互联网图片数据进行数据清洗;根据清洗后的互联网图片数据进行图片标注,并接收图片标注后对应的完成结果;根据所述完成结果生成标注数据集。

【技术特征摘要】
1.一种图片标注方法,其特征在于,包括:根据目标任务需求获取互联网图片数据;对获取的互联网图片数据进行数据清洗;根据清洗后的互联网图片数据进行图片标注,并接收图片标注后对应的完成结果;根据所述完成结果生成标注数据集。2.根据权利要求1所述的方法,其特征在于,所述根据目标任务需求获取互联网图片数据,包括:通过预设通用数据资源平台或目标类别的垂直类网站获取所述互联网图片数据。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:获取所述互联网图片数据时,通过预设相同图片及相似图片检索算法将抓取的互联网图片数据与本地已存储的图片数据进行比对;根据比对结果对重复的图片数据进行丢弃,以及,对未出现在本地的图片资源进行下载入库操作。4.根据权利要求1所述的方法,其特征在于,所述对获取的互联网图片数据进行数据清洗,包括:利用计算机视觉和深度学习处理技术,对保存的互联网图片数据从内容和语义级别进行数据清洗,以滤除不符合预设要求的图片数据。5.根据权利要求4所述的方法,其特征在于,所述利用计算机视觉和深度学习处理技术,对保存的互联网图片数据从内容和语义级别进行数据清洗,包括:识别所述互联网图片中的物体,并根据识别出的内容对所述互联网图片打标签,以根据打标签的结果滤除不符合预设要求的图片数据;识别所述互联网图片的内容,并生成描述所述互联网图片的内容的短语,以根据短语生成的结果滤除不符合预设要求的图片数据;检测所述互联网图片中的物体的显著性水平,滤除完全无显著性特征的图片;检测所述互联网图片中出现的实体个数,滤除实体个数大于预设数量的图片。6.根据权利要求4所述的方法,其特征在于,所述检测所述互联网图片中的物体的显著性水平,包括:分析所述互联网图片中像素点的亮度、对比度指标,并根据像素的梯度值和统计学原理确定所述互联网图片的显著性区域。7.根据权利要求1所述的方法,其特征在于,所述根据清洗后的互联网图片数据进行图片标注,包括:根据清洗后的互联网图片数据...

【专利技术属性】
技术研发人员:汤炜
申请(专利权)人:北京智能管家科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1