用于辅助标注模型训练数据的方法及系统技术方案

技术编号:33073825 阅读:71 留言:0更新日期:2022-04-15 10:09
本发明专利技术公开用于辅助标注模型训练数据的方法及系统,其中该方法包括:S1、构建两个训练集;S2、训练两个与所述训练集一一对应的分类器,通过两个分类器分别预测对方训练集中训练数据的类别,获取预测结果与作业人员标注的类别不一致的错误数据,并从所述错误数据中提取错误特征;S3、更新待标注数据池,并基于新的待标注数据池获取多个新的训练数据并分发到两个训练集中;S4、基于两个新的训练集重复上述步骤S2

【技术实现步骤摘要】
用于辅助标注模型训练数据的方法及系统


[0001]本专利技术涉及人工智能
,尤其涉及用于辅助标注模型训练数据的方法及系统。

技术介绍

[0002]受益于计算资源的迅猛发展与网络普及带来的海量数据,人工智能技术得到迅猛发展。这其中,有监督学习占有举足轻重的地位。而有监督学习依赖于大量有标注数据,同时数据的标注效率低下,这两个特性是长期以来阻碍AI技术发展与应用的一对主要绊脚石。尽管我们可以投入更多的人力资源来缓解这一问题,但是,大量的身份不同、思想不同且未受专业训练的普通人对数据进行的标注,势必会给标注结果(即,上文中的有标注数据)带来大量的“噪声”,而这些“噪声”会给后续被训练的算法模型的训练过程带来不可忽略的影响。另一方面,由于在真实情况下,各类别数据之间的比例总体符合长尾定律,这意味着:标注的中后期,有效数据可能只占总体数据的20%以下。这种情况下,如果不做出特别的标注策略,就会导致人力资源极大的浪费,因此,如何在模型训练数据的标注过程中同时提高标注效率与标注质量,是亟需解决的问题。

技术实现思路

[0003]本专利技术的目的在于提供用于辅助标注模型训练数据的方法及系统,能够过滤筛选出一些有价值的模型训练数据,并且把由于标注人员思考方式不统一而造成的标注错误找出,实现了在模型训练数据的标注过程中同时提高标注效率与标注质量。
[0004]为了实现上述目的,本专利技术提供如下技术方案:
[0005]一种用于辅助标注模型训练数据的方法,包括:
[0006]S1、构建两个训练集,其中,所述训练集包括多个训练数据,所述训练数据是从待标注数据池中采样并被作业人员标注类别后得到的;
[0007]S2、训练两个与所述训练集一一对应的分类器,通过两个分类器分别预测对方训练集中训练数据的类别,获取预测结果与作业人员标注的类别不一致的错误数据,并从所述错误数据中提取错误特征;
[0008]S3、利用所述两个分类器同时预测所述待标注数据池,筛选并保留两个分类器的预测结果不一致的矛盾数据,以及包括所述错误特征的待标注数据,更新待标注数据池;基于新的待标注数据池获取多个新的训练数据并分发到两个训练集中;
[0009]S4、基于两个新的训练集重复上述步骤S2

S3,直至两个训练集中的训练数据总数量达到预设值,将两个训练集中所有的训练数据导出。
[0010]优选地,步骤S1具体包括:
[0011]S101、根据已知类别从待标注数据池中均匀地采样第一组数据并分发给作业人员进行类别标注,获取标注后的第一组数据存储为第一训练集的训练数据;
[0012]S102、从待标注数据池中随机采样第二组数据并分发给作业人员进行类别标注,
获取标注后的第二组数据存储为第二训练集的训练数据。
[0013]较好地,步骤S2具体包括:
[0014]S201、利用所述第一训练集训练得到第一分类器,利用所述第二训练集训练得到第二分类器;其中,所述第一分类器和所述第二分类器分别包括多个二分类分类器;
[0015]S202、利用所述第一分类器预测所述第二训练集中的每个训练数据的类别,将预测结果与作业人员标注的类别不一致的训练数据标注为错误数据并存储到第一错误数据集中;
[0016]利用所述第二分类器预测所述第一训练集中的每个训练数据的类别,将预测结果与作业人员标注的类别不一致的训练数据标注为错误数据并存储到第二错误数据集中;
[0017]S203、从所述错误数据中获取错误特征,并将所述错误特征存储到错误词典中。
[0018]进一步地,步骤S203具体包括:
[0019]S2031、利用分词工具对所述第一错误数据集和所述第二错误数据集中的每条错误数据进行分词和清洗,获取每条错误数据对应的多个特征词;
[0020]S2032、针对所述第一错误数据集中任一错误数据:利用所述第一分类器逐一预测所述错误数据对应的每个特征词的类别,并将每个特征词的预测结果分别与所述错误数据的预测结果进行量化对比,得到每个特征词对应的对比指标,其中,所述对比指标用于表示任一特征词与所述错误数据的相似度;
[0021]针对所述第二错误数据集中任一错误数据:利用所述第二分类器逐一预测所述错误数据对应的每个特征词的类别,并将每个特征词的预测结果分别与所述错误数据的预测结果进行量化对比,得到每个特征词对应的对比指标,其中,所述对比指标用于表示任一特征词与所述错误数据的相似度;
[0022]S2033、当所述对比指标小于预设的相似度阈值时,将所述对比指标对应的特征词判定为错误特征,并将所述错误特征存储到错误词典中。
[0023]具体地,将任一特征词的预测结果与所述错误数据的预测结果进行量化对比,得到所述特征词对应的对比指标的方法具体包括:
[0024]基于所述第一分类器或所述第二分类器对所述特征词的预测结果,获取所述第一分类器或所述第二分类器中每个二分类分类器分别针对所述特征词产生的第一置信度值,并将所有的第一置信度值归一化处理,得到所述特征词对应的第一概率分布数据;
[0025]基于所述第一分类器或所述第二分类器对所述错误数据的预测结果,获取所述第一分类器或所述第二分类器中每个二分类分类器分别针对所述错误数据产生的第二置信度值,并将所有的第二置信度值归一化处理,得到所述错误数据对应的第二概率分布数据;
[0026]统计所述第一概率分布数据和所述第二概率分布数据的相对熵值,并将所述相对熵作为所述特征词对应的对比指标。
[0027]优选地,所述第一分类器和所述第二分类器采用TextCNN模型实现,步骤S204具体包括:
[0028]S2041、获取所述错误数据在FC层的最大参数对应的第一特征;
[0029]S2042、跟踪所述第一特征在max

pooling层所对应的卷积层特征的下标;
[0030]S2043、基于卷积层特征的下标,获取句子中与所述第一特征对应的n

gram特征,将所述n

gram特征判定为错误特征并存储到错误词典中。
[0031]较佳地,步骤S203还包括:获取预测结果为未定义类别的训练数据;
[0032]步骤S3还包括:利用所述两个分类器同时预测所述待标注数据池,筛选并保留两个分类器的预测结果都是未定义类别的待标注数据。
[0033]优选地,步骤S1中,作业人员对第一组数据和第二组数据进行类别标注时,还标注了作业人员ID;
[0034]所述用于辅助标注模型训练数据的方法还包括:
[0035]S5、从S4中导出的训练数据中筛选出能够识别出作业人员ID的训练数据,并对所述能够识别出作业人员ID的训练数据进行删除、修正或保留。
[0036]具体地,步骤S5具体包括:
[0037]S501、训练数据校验模型,所述数据校验模型用于:
[0038]获取每条训练数据的特征词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于辅助标注模型训练数据的方法,其特征在于,包括:S1、构建两个训练集,其中,所述训练集包括多个训练数据,所述训练数据是从待标注数据池中采样并被作业人员标注类别后得到的;S2、训练两个与所述训练集一一对应的分类器,通过两个分类器分别预测对方训练集中训练数据的类别,获取预测结果与作业人员标注的类别不一致的错误数据,并从所述错误数据中提取错误特征;S3、利用所述两个分类器同时预测所述待标注数据池,筛选并保留两个分类器的预测结果不一致的矛盾数据,以及包括所述错误特征的待标注数据,更新待标注数据池;基于新的待标注数据池获取多个新的训练数据并分发到两个训练集中;S4、基于两个新的训练集重复上述步骤S2

S3,直至两个训练集中的训练数据总数量达到预设值,将两个训练集中所有的训练数据导出。2.根据权利要求1所述的用于辅助标注模型训练数据的方法,其特征在于,步骤S1具体包括:S101、从待标注数据池中随机采样第一组数据并分发给作业人员进行类别标注,获取标注后的第一组数据存储为第一训练集的训练数据;S102、根据已知类别从待标注数据池中均匀地采样第二组数据并分发给作业人员进行类别标注,获取标注后的第二组数据存储为第二训练集的训练数据。3.根据权利要求2所述的用于辅助标注模型训练数据的方法,其特征在于,步骤S2具体包括:S201、利用所述第一训练集训练得到第一分类器,利用所述第二训练集训练得到第二分类器;其中,所述第一分类器和所述第二分类器分别包括多个二分类分类器;S202、利用所述第一分类器预测所述第二训练集中的每个训练数据的类别,将预测结果与作业人员标注的类别不一致的训练数据标注为错误数据并存储到第一错误数据集中;利用所述第二分类器预测所述第一训练集中的每个训练数据的类别,将预测结果与作业人员标注的类别不一致的训练数据标注为错误数据并存储到第二错误数据集中;S203、从所述错误数据中获取错误特征,并将所述错误特征存储到错误词典中。4.根据权利要求3所述的用于辅助标注模型训练数据的方法,其特征在于,步骤S203具体包括:S2031、利用分词工具对所述第一错误数据集和所述第二错误数据集中的每条错误数据进行分词和清洗,获取每条错误数据对应的多个特征词;S2032、针对所述第一错误数据集中任一错误数据:利用所述第一分类器逐一预测所述错误数据对应的每个特征词的类别,并将每个特征词的预测结果分别与所述错误数据的预测结果进行量化对比,得到每个特征词对应的对比指标,其中,所述对比指标用于表示任一特征词与所述错误数据的相似度;针对所述第二错误数据集中任一错误数据:利用所述第二分类器逐一预测所述错误数据对应的每个特征词的类别,并将每个特征词的预测结果分别与所述错误数据的预测结果进行量化对比,得到每个特征词对应的对比指标,其中,所述对比指标用于表示任一特征词与所述错误数据的相似度;S2033、当所述对比指标小于预设的相似度阈值时,将所述对比指标对应的特征词判定
为错误特征,并将所述错误特征存储到错误词典中。5.根据权利要求4所述的用于辅助标注模型训练数据的方法,其特征在于,将任一特征词的预测结果与所述错误数据的预测结果进行量化对比,得到所述特征词对应的对比指标的方法具体包括:基于所述第一分类器或所述第二分类器对所述特征词的预测结果,获取所述第一分类器或所述第二分类器中每个二分类分类器分别针对所述特征词产生的第一置信度值,并将所有的第一置信度值归一化处理,得到所述特征词对应的第一概率分布数据;基于所述第一分类器或所述第二分类器对所述错误数据的预测结果,获取所述第一分类器或所述...

【专利技术属性】
技术研发人员:谢铁
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1