【技术实现步骤摘要】
标注数据的处理方法、装置、电子设备及存储介质
本公开涉及互联网
,尤其涉及一种标注数据的处理方法、装置、电子设备及存储介质。
技术介绍
近来,深度学习在自然语言处理、文本翻译等领域取得了突破性的进展。然而这些进展严重依赖于训练数据的规模,所以训练数据成为将技术应用到实际生产环境中最主要的瓶颈。训练数据包含了用于训练模型的大量样本数据,对训练数据进行标注是目前人工智能行业中不可或缺的一环。标注可以理解为对训练数据添加标签。比如,对图像中的目标进行标注时,添加的标签可以包括是否为用户、是否为车辆等;再比如,对图像中的用户进行标注时,添加的标签可以包括用户的性别、身份、着装信息等;再比如,对文本数据进行标注时,添加的标签可以包括主语、谓语等语义信息。目前国内外对训练数据的标注工作大多采用众包、外包等人工标注方案。以目前的图像分类任务为例,一般用于训练模型的每一个标签需要“千”量级的训练数据。传统的方法使用的是全监督数据训练模型,即首先需要获得足够的标注数据(即标注了标注标签的训练数据),然后再训练模型。训练数据的获得除了数据量大之外,还需要标注尽快能准确。目前获取大量标注的训练数据的方式主要是通过外包对训练数据进行标注。然而,外包用户可能下列问题:1、新手标注,对标注规则不明确,造成标注准确率不高;2、外包用户责任心不够,造成标注不够精确;3、问题本身比较难,需要大量的实际标注经验才能使得标注尽可能准确。无论是出于何种原因,不够精确标注的训练数据都会让模型训练之后的结果 ...
【技术保护点】
1.一种标注数据的处理方法,其特征在于,包括:/n获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;/n获取所述标注数据的标注特征;/n采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;/n计算在同一类别的所述标注特征和所述标签中心特征之间的距离;/n根据所述距离确定处于异常标注用户;/n删除在所述标注数据集中所述异常标注用户对应的标注数据。/n
【技术特征摘要】
1.一种标注数据的处理方法,其特征在于,包括:
获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;
获取所述标注数据的标注特征;
采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;
计算在同一类别的所述标注特征和所述标签中心特征之间的距离;
根据所述距离确定处于异常标注用户;
删除在所述标注数据集中所述异常标注用户对应的标注数据。
2.根据权利要求1所述的标注数据的处理方法,其特征在于,所述根据所述距离确定处于异常用户的步骤,包括:
将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。
3.根据权利要求1所述的标注数据的处理方法,其特征在于,所述根据所述距离确定处于异常用户的步骤,包括:
将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据是否超过N个;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。
4.根据权利要求1所述的标注数据的处理方法,其特征在于,所述采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征的步骤,包括;
采用特征模型提取所述候选标注标签的标签特征;
获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;
将所述均值作为所述类别对应的标签中心特征。
5.根据权利要求4所述的标注数据的处理方法,其特征在于,在所述删除在所述标注数据集中所述异常用户对应的标注数据的步骤之后,还包括:
采用所述删除异常标注用户对应的标注数据后的所述标...
【专利技术属性】
技术研发人员:张志伟,郑仲奇,王希爱,齐楠,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。