一种数据批量标注方法、装置及计算机可读存储介质制造方法及图纸

技术编号:20916608 阅读:35 留言:0更新日期:2019-04-20 09:42
本发明专利技术涉及人工智能技术领域,提供一种数据批量标注方法、装置及存储介质,方法包括:对包含有多张图像的数据集进行降维处理,得到由低维向量组成的数据集;对数据集的低维向量进行聚类,把图像分成不同的类别;通过可视化工具将聚类后的数据显示出来,选取同一类别的数据,并对同一类别的数据进行统一批量标注。通过聚类将数据集内的数据分成不同的类别,从而可以对数据集内的同一类别的数据进行批量标注,减少了标注的工作量。采用无监督聚类的方式,通用性强。并且,在聚类后采用神经网络识别的方式,进一步识别同一类别中的图像的特征,从而能够确定该同一类别中的数据的共有特征,进而可以依据识别结果对同一类别进行统一批量标注。

A Method, Device and Computer Readable Storage Medium for Data Batch Marking

The invention relates to the field of artificial intelligence technology, and provides a method, device and storage medium for data batch annotation. The method includes: dimensionality reduction of data sets containing multiple images to obtain data sets composed of low-dimensional vectors; clustering of low-dimensional vectors of data sets to divide images into different categories; and displaying clustered data through visualization tools. Select the same category of data and label the same category of data in a unified batch. By clustering, the data in the data set can be divided into different categories, so that the same category of data in the data set can be labeled in batches, which reduces the labeling workload. The method of unsupervised clustering has strong universality. Furthermore, after clustering, the feature of image in the same category can be further identified by using neural network recognition method, so that the common features of data in the same category can be determined, and then the same category can be labeled in a unified batch according to the recognition results.

【技术实现步骤摘要】
一种数据批量标注方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,具体地说,涉及一种数据批量标注方法、装置及计算机可读存储介质。
技术介绍
随着多媒体信息技术和互联网信息技术的迅速发展,每天数以亿计的新图像呈现在互联网上。和文本相比,图像可以更加直观、更加精确地描述信息,因此在如今信息爆炸的时代,图像能使用户更方便、更快捷、更精确地获取所需信息。图像信息逐渐成为当下时代信息传播的最重要的途径之一。尤其在智能识别技术中,需要大量的已标注图片来作为训练数据集来训练模型,从而提高模型的识别能力。然而目前对影像数据的标注通常是通过人为观察数据,区分数据类别,并通过工具逐一的对每张图片进行分类标注。这种方法的缺点是无法批量的对数据进行标注,当数据量较大时标注效率较低;很多标注工作需要专业人员进行分类标注,导致标注成本较高。
技术实现思路
为解决以上技术问题,本专利技术提供一种数据批量标注方法,应用于电子装置,对包含有多张图像的数据集进行降维处理,得到由低维向量组成的数据集;对数据集的低维向量进行聚类,把图像分成不同的类别;通过可视化工具将聚类后的数据显示出来,选取同一类别的数据,并对本文档来自技高网...

【技术保护点】
1.一种数据批量标注方法,应用于电子装置,其特征在于,对包含有多张图像的数据集进行降维处理,得到由低维向量组成的数据集;对数据集的低维向量进行聚类,把图像分成不同的类别;通过可视化工具将聚类后的数据显示出来,选取同一类别的数据,并对同一类别的数据进行统一批量标注。

【技术特征摘要】
1.一种数据批量标注方法,应用于电子装置,其特征在于,对包含有多张图像的数据集进行降维处理,得到由低维向量组成的数据集;对数据集的低维向量进行聚类,把图像分成不同的类别;通过可视化工具将聚类后的数据显示出来,选取同一类别的数据,并对同一类别的数据进行统一批量标注。2.根据权利要求1所述的数据批量标注方法,其特征在于,采用非线性降维的方式将高位数据转化为低维数据。3.根据权利要求1所述的数据批量标注方法,其特征在于,非线性降维采用如下公式:高维空间表示为:其中,pji表示高维空间条件概率;xi和xj表示高维空间的点;σi表示以xi为中心的高斯分布的方差;低维空间表示为:qij表示低维空间条件概率,yi和yj表示高维空间在低维空间映射的点;代价函数其中,KL散度表示一个点的P与Q之间的误差;P表示高维空间条件概率分布,Q表示低维空间条件概率分布,梯度4.根据权利要求1所述的数据批量标注方法,其特征在于,对于图像特征不确定的类别,使用编号进行分类标注。5.根据权利要求1所述的数据批量标注方法,其特征在于,在聚类后,还利用神经网络来识别某一类别中的至少一张图像,以加快标注速度,包括以下步骤:收集训练数据集,训练数据集包括大量的已标注的图片,作为训练数据;用训练数据训练神经网络模型,提高神经网络模型的识别能力;在聚类完成后,利用神经网络模型识别每一类别中的一张图像,以获取该张图像中的特征;根据该张图像的特征对聚类后的每一类别中的所有图像统一进行标注。6.根据权利要求1所述的数据批量标注方法,其特征在于,在聚类后,还利用神经网络来识别每一类别中的至少两张图像,以加快标注速度,包括以下步骤:收集训练数据...

【专利技术属性】
技术研发人员:成冠举高鹏谢国彤
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1