标注数据的处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23892341 阅读:18 留言:0更新日期:2020-04-22 06:59
本公开关于标注数据的处理方法、装置、电子设备及存储介质,包括:获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;获取所述标注数据的标注特征;采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;计算在同一类别的所述标注特征和所述标签中心特征之间的距离;根据所述距离确定处于异常标注用户;删除在所述标注数据集中所述异常标注用户对应的标注数据。本实施例根据距离确定的异常标注用户,删除该标注用户的标注数据,使得用于训练模型的标注数据更加精确。

Processing method, device, electronic equipment and storage medium of labeled data

【技术实现步骤摘要】
标注数据的处理方法、装置、电子设备及存储介质
本公开涉及互联网
,尤其涉及一种标注数据的处理方法、装置、电子设备及存储介质。
技术介绍
近来,深度学习在自然语言处理、文本翻译等领域取得了突破性的进展。然而这些进展严重依赖于训练数据的规模,所以训练数据成为将技术应用到实际生产环境中最主要的瓶颈。训练数据包含了用于训练模型的大量样本数据,对训练数据进行标注是目前人工智能行业中不可或缺的一环。标注可以理解为对训练数据添加标签。比如,对图像中的目标进行标注时,添加的标签可以包括是否为用户、是否为车辆等;再比如,对图像中的用户进行标注时,添加的标签可以包括用户的性别、身份、着装信息等;再比如,对文本数据进行标注时,添加的标签可以包括主语、谓语等语义信息。目前国内外对训练数据的标注工作大多采用众包、外包等人工标注方案。以目前的图像分类任务为例,一般用于训练模型的每一个标签需要“千”量级的训练数据。传统的方法使用的是全监督数据训练模型,即首先需要获得足够的标注数据(即标注了标注标签的训练数据),然后再训练模型。训练数据的获得除了数据量大之外,还需要标注尽快能准确。目前获取大量标注的训练数据的方式主要是通过外包对训练数据进行标注。然而,外包用户可能下列问题:1、新手标注,对标注规则不明确,造成标注准确率不高;2、外包用户责任心不够,造成标注不够精确;3、问题本身比较难,需要大量的实际标注经验才能使得标注尽可能准确。无论是出于何种原因,不够精确标注的训练数据都会让模型训练之后的结果不尽如人意,因此,亟需提出一种训练数据的处理的方案,以提高训练数据的标注精度。
技术实现思路
本公开提供标注数据的处理,以至少解决相关技术中标注的训练数据不够精确的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种标注数据的处理方法,包括:获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;获取所述标注数据的标注特征;采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;计算在同一类别的所述标注特征和所述标签中心特征之间的距离;根据所述距离确定处于异常标注用户;删除在所述标注数据集中所述异常标注用户对应的标注数据。可选地,所述根据所述距离确定处于异常用户的步骤,包括:将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;确定所述目标标注数据对应的目标标注用户;从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。可选地,所述根据所述距离确定处于异常用户的步骤,包括:将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;确定所述目标标注数据对应的目标标注用户;从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;判断各个所述目标标注用户对应的标注数据是否超过N个;若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。可选地,所述采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征的步骤,包括;采用特征模型提取所述候选标注标签的标签特征;获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;将所述均值作为所述类别对应的标签中心特征。可选地,在所述删除在所述标注数据集中所述异常用户对应的标注数据的步骤之后,还包括:采用所述删除异常标注用户对应的标注数据后的所述标注数据集,训练所述特征模型。根据本公开实施例的第二方面,提供一种标注数据的处理装置,包括:数据集获取模块,被配置为获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;标注特征提取模块,被配置为获取所述标注数据的标注特征;锚定中心特征计算模块,被配置为采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;距离计算模块,被配置为计算在同一类别的所述标注特征和所述标签中心特征之间的距离;异常标注用户确定模块,被配置为根据所述距离确定处于异常标注用户;标注数据删除模块,被配置为删除在所述标注数据集中所述异常标注用户对应的标注数据。可选地,所述异常标注用户确定模块,被配置为:将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;确定所述目标标注数据对应的目标标注用户;从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。可选地,所述异常标注用户确定模块,被配置为:将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;确定所述目标标注数据对应的目标标注用户;从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;判断各个所述目标标注用户对应的标注数据是否超过N个;若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。可选地,所述标签中心特征计算模块,被配置为;采用特征模型提取所述候选标注标签的标签特征;获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;将所述均值作为所述类别对应的标签中心特征。可选地,还包括:特征模型训练模块,被配置为为采用所述删除异常标注用户对应的标注数据后的所述标注数据集,训练所述特征模型。根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现本公开实施例第一方面提供的标注数据的处理方法。根据本公开实施例的第四方面,提供了一种非临时性计算机可读存储介质,使得电子设备能够执行本公开实施例第一方面提供的标注数据的处理方法。根据本公开实施例的第五方面,提供一种应用程序产品,当所述应用程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面的任一种可能实现方式所述的标注数据的处理方法。本公开的实施例提供的技术方案至少带来以下有益效果:本实施例可以获取标注数据集和标注标签集,然后计算标注数据集中标注数据的标注特征,以及采用标注标签集在本文档来自技高网
...

【技术保护点】
1.一种标注数据的处理方法,其特征在于,包括:/n获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;/n获取所述标注数据的标注特征;/n采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;/n计算在同一类别的所述标注特征和所述标签中心特征之间的距离;/n根据所述距离确定处于异常标注用户;/n删除在所述标注数据集中所述异常标注用户对应的标注数据。/n

【技术特征摘要】
1.一种标注数据的处理方法,其特征在于,包括:
获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;
获取所述标注数据的标注特征;
采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;
计算在同一类别的所述标注特征和所述标签中心特征之间的距离;
根据所述距离确定处于异常标注用户;
删除在所述标注数据集中所述异常标注用户对应的标注数据。


2.根据权利要求1所述的标注数据的处理方法,其特征在于,所述根据所述距离确定处于异常用户的步骤,包括:
将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。


3.根据权利要求1所述的标注数据的处理方法,其特征在于,所述根据所述距离确定处于异常用户的步骤,包括:
将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据是否超过N个;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。


4.根据权利要求1所述的标注数据的处理方法,其特征在于,所述采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征的步骤,包括;
采用特征模型提取所述候选标注标签的标签特征;
获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;
将所述均值作为所述类别对应的标签中心特征。


5.根据权利要求4所述的标注数据的处理方法,其特征在于,在所述删除在所述标注数据集中所述异常用户对应的标注数据的步骤之后,还包括:
采用所述删除异常标注用户对应的标注数据后的所述标...

【专利技术属性】
技术研发人员:张志伟郑仲奇王希爱齐楠
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1