图片标注方法及装置制造方法及图纸

技术编号：15289801 阅读：62 留言：0更新日期：2017-05-10 16:51

本发明专利技术涉及一种图片标注方法及装置，所述方法包括根据目标任务需求获取互联网图片数据；对获取的互联网图片数据进行数据清洗；根据清洗后的互联网图片数据进行图片标注，并接收图片标注后对应的完成结果；根据所述完成结果生成标注数据集。所述装置包括图片获取单元、图片清洗单元、图片标注单元以及数据集生成单元。本发明专利技术的图片标注方法及装置，可以提高标注数据的数量、质量及标注速度，达到快速、低成本产出高质量数据标注结果的目的，可为后续模型训练提供有效训练数据集合。

Image annotation method and device

The invention relates to an image annotation method and device, the method includes obtaining internet image data according to the target task demand; data cleaning of Internet image data acquisition; image annotation based on Internet image data after cleaning, complete the corresponding results and receive pictures after injection; according to the complete results generated annotation data set. The device comprises an image acquisition unit, a picture cleaning unit, an image annotation unit and a data set generating unit. The invention of the image annotation method and device, can improve the quality and quantity of labeled data, marking speed, achieve rapid, low cost and high quality output data annotation results to provide effective training data for model training set.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网
，尤其涉及一种图片标注方法及装置。
技术介绍
随着互联网及智能终端的普及，互联网上的图片数据越来越多也越来越丰富。如何有效利用互联网图片数据，并通过对这些图片数据的采集处理形成训练样本，来完成相关机器学习及深度学习任务成为当前一个重要的问题。目前，为了形成训练模型的样本通常采用做法是寻找网上已经开源可用的图片数据集直接使用，或者自己去拍照搜集相关图片数据，然后对这些数据进行逐一筛选审核，最后生成可用来训练的数据集合。显然，上述方法存在数据类型相对单一，收集速度缓慢，数据量小，处理周期过长等问题。
技术实现思路
针对现有形成训练模型的样本的方法存在数据类型单一，收集速度缓慢，数据量小，成本过高，处理周期过长等问题的缺陷，本专利技术提出如下技术方案：本专利技术一方面提供了一种图片标注方法，包括：根据目标任务需求获取互联网图片数据；对获取的互联网图片数据进行数据清洗；根据清洗后的互联网图片数据进行图片标注，并接收图片标注后对应的完成结果；根据所述完成结果生成标注数据集。可选地，所述根据目标任务需求获取互联网图片数据，包括：通过预设通用数据资源平台或目标类别的垂直类网站获取所述互联网图片数据。可选地，所述方法还包括：获取所述互联网图片数据时，通过预设相同图片及相似图片检索算法将抓取的互联网图片数据与本地已存储的图片数据进行比对；根据比对结果对重复的图片数据进行丢弃，以及，对未出现在本地的图片资源进行下载入库操作。可选地，所述对获取的互联网图片数据进行数据清洗，包括：利用计算机视觉和深度学习处理技术，对保存的互联网图片数据从内容和语义级别进...
图片标注方法及装置

【技术保护点】
一种图片标注方法，其特征在于，包括：根据目标任务需求获取互联网图片数据；对获取的互联网图片数据进行数据清洗；根据清洗后的互联网图片数据进行图片标注，并接收图片标注后对应的完成结果；根据所述完成结果生成标注数据集。

【技术特征摘要】
1.一种图片标注方法，其特征在于，包括：根据目标任务需求获取互联网图片数据；对获取的互联网图片数据进行数据清洗；根据清洗后的互联网图片数据进行图片标注，并接收图片标注后对应的完成结果；根据所述完成结果生成标注数据集。2.根据权利要求1所述的方法，其特征在于，所述根据目标任务需求获取互联网图片数据，包括：通过预设通用数据资源平台或目标类别的垂直类网站获取所述互联网图片数据。3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：获取所述互联网图片数据时，通过预设相同图片及相似图片检索算法将抓取的互联网图片数据与本地已存储的图片数据进行比对；根据比对结果对重复的图片数据进行丢弃，以及，对未出现在本地的图片资源进行下载入库操作。4.根据权利要求1所述的方法，其特征在于，所述对获取的互联网图片数据进行数据清洗，包括：利用计算机视觉和深度学习处理技术，对保存的互联网图片数据从内容和语义级别进行数据清洗，以滤除不符合预设要求的图片数据。5.根据权利要求4所述的方法，其特征在于，所述利用计算机视觉和深度学习处理技术，对保存的互联网图片数据从内容和语义级别进行数据清洗，包括：识别所述互联网图片中的物体，并根据识别出的内容对所述互联网图片打标签，以根据打标签的结果滤除不符合预设要求的图片数据；识别所述互联网图片的内容，并生成描述所述互联网图片的内容的短语，以根据短语生成的结果滤除不符合预设要求的图片数据；检测所述互联网图片中的物体的显著性水平，滤除完全无显著性特征的图片；检测所述互联网图片中出现的实体个数，滤除实体个数大于预设数量的图片。6.根据权利要求4所述的方法，其特征在于，所述检测所述互联网图片中的物体的显著性水平，包括：分析所述互联网图片中像素点的亮度、对比度指标，并根据像素的梯度值和统计学原理确定所述互联网图片的显著性区域。7.根据权利要求1所述的方法，其特征在于，所述根据清洗后的互联网图片数据进行图片标注，包括：根据清洗后的互联网图片数据...

【专利技术属性】
技术研发人员：汤炜，
申请(专利权)人：北京智能管家科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人