标注数据的校验方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33636273 阅读:12 留言:0更新日期:2022-06-02 01:49
本申请公开了一种标注数据的校验方法、装置、计算机设备及存储介质,该方法包括:获取针对同一标注样本集的M组第一情感标注数据;基于每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定每组第一情感标注数据对应的第一标注得分;基于每组第一情感标注数据与M组第一情感标注数据中的每组其他第一情感标注数据之间的加权一致性分数,确定每组第一情感标注数据对应的第二标注得分,加权一致性分数依据的一致性权重由标注的情感标签之间的关联度确定;基于每组第一情感标注数据对应的第一标注得分以及第二标注得分,对每组第一情感标注数据进行校验。本方法可以实现对情感标注数据的准确校验。的准确校验。的准确校验。

【技术实现步骤摘要】
标注数据的校验方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,更具体地,涉及一种标注数据的校验方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着科技水平的迅速发展,涉及情感标注数据的深度学习引起了人们极大的研究兴趣,并同时在很多应用产品中部署,例如利用情感标注数据训练语音对话模型、图像评价模型等。但是,在对样本数据进行情感标注时,容易受到标注人员的主观性、个性化的影响,进而影响了情感标注数据的标注准确性。

技术实现思路

[0003]本申请提出了一种标注数据的校验方法、装置、计算机设备及存储介质,可以实现对情感标注数据的准确校验。
[0004]第一方面,本申请实施例提供了一种标注数据的校验方法,所述方法包括:获取针对同一标注样本集的M组第一情感标注数据,其中,每组第一情感标注数据的标注用户不同,所述M为正整数;基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分,所述第二情感标注数据为标准标注数据库中的标注数据,且所述第二情感标注数据与所述第一情感标注数据之间存在至少部分相同的标注样本,所述N为正整数;基于所述每组第一情感标注数据与所述M组第一情感标注数据中的每组其他第一情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第二标注得分,所述加权一致性分数依据的一致性权重由标注的情感标签之间的关联度确定;基于所述每组第一情感标注数据对应的第一标注得分以及第二标注得分,对所述每组第一情感标注数据进行校验。
[0005]第二方面,本申请实施例提供了一种标注数据的校验装置,所述装置包括:数据获取模块、第一评分模块、第二评分模块以及数据校验模块,其中,所述数据获取模块用于获取针对同一标注样本集的M组第一情感标注数据,其中,每组第一情感标注数据的标注用户不同,所述M为正整数;所述第一评分模块用于基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分,所述第二情感标注数据为标准标注数据库中的标注数据,且所述第二情感标注数据与所述第一情感标注数据之间存在至少部分相同的标注样本,所述N为正整数;所述第二评分模块用于基于所述每组第一情感标注数据与所述M组第一情感标注数据中的每组其他第一情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第二标注得分,所述加权一致性分数依据的一致性权重由标注的情感标签之间的关联度确定;所述第二评分模块用于基于所述每组第一情感标注数据对应的第一标注得分以及第二标注得分,对所述每组第一情感标注数据进行校验。
[0006]第三方面,本申请实施例提供了一种计算机设备,包括:一个或多个处理器;存储
器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述第一方面提供的标注数据的校验方法。
[0007]第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的标注数据的校验方法。
[0008]本申请提供的方案,通过获取针对同一标注样本集的M组第一情感标注数据,再基于每组第一情感标注数据与标准标注数据库中的N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定每组第一情感标注数据对应的第一标注得分,且第二情感标注数据与第一情感标注数据之间存在至少部分相同的标注样本,基于每组第一情感标注数据与M组第一情感标注数据中的每组其他第一情感标注数据之间的加权一致性分数,确定每组第一情感标注数据对应的第二标注得分,且加权一致性分数依据的一致性权重由标注的情感标签之间的关联度确定,然后基于每组第一情感标注数据对应的第一标注得分以及第二标注得分,对每组第一情感标注数据进行校验。由于第一标注得分以及第二标注得分均根据一致性权重确定加权一致性分数得到,且加权一致性权重由情感标签之间的关联度确定,因此可以提升第一标注得分以及第二标注得分的准确性,从而利用第一标注得分以及第二标注得分对情感标注数据进行校验时,能够提升校验准确性。
附图说明
[0009]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1示出了根据本申请一个实施例的标注数据的校验方法流程图。
[0011]图2示出了根据本申请另一个实施例的标注数据的校验方法流程图。
[0012]图3示出了根据本申请又一个实施例的标注数据的校验方法流程图。
[0013]图4示出了根据本申请再一个实施例的标注数据的校验方法流程图。
[0014]图5示出了根据本申请又另一个实施例的标注数据的校验方法流程图。
[0015]图6示出了根据本申请一个实施例的标注数据的校验装置的一种框图。
[0016]图7是本申请实施例的用于执行根据本申请实施例的标注数据的校验方法的计算机设备的框图。
[0017]图8是本申请实施例的用于保存或者携带实现根据本申请实施例的标注数据的校验方法的程序代码的存储单元。
具体实施方式
[0018]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0019]主观数据标注,即收集与人的主观感受、态度和看法相关的数据,是视觉理解、语义理解等算法研究的基础,是使算法效果得到用户主观满意的关键。主观数据标注任务,具
有主观性强、个性化强的特点,不存在唯一标准答案,这给标注数据质量控制带来了挑战。针对主观标注任务的质量控制,需要既能够避免错标、乱标的情况,又能够保留合理的主观差异。
[0020]传统的对标注数据的校验方式中,通常将标注数据与专家标注数据进行匹配,由此确定标注数据是否核稿,或者,对于同一标注样本选择标注人数最多的标签,作为最终的标注结果。但是,在针对图像、视频、语音的主观标注任务中,对样本标注情感分量标签,即样本引发的主观情绪,是一种重要的标注场景。情感分类标签既无法转化为定量数据进行分析,又不能简单视为彼此独立的无序分类变量(例如,兴奋、快乐这两个情感分类就比快乐、愤怒这两个标签语义距离更近),因此,而传统的校验方案无法很好地处理情感标注场景,导致情感标注数据的校验准确性不足。
[0021]针对上述问题,专利技术人提出了本申请实施例提供的标注数据的校验方法、装置、计算机设备以及存储介质,由于在校验过程中获取的第一标注得分以及第二标注得分均根据一致性权重确定加权一致性分数得到,且加权一致性权重由情感标签之间的关联度确定,因此可以提升第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标注数据的校验方法,其特征在于,所述方法包括:获取针对同一标注样本集的M组第一情感标注数据,其中,每组第一情感标注数据的标注用户不同,所述M为正整数;基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分,所述第二情感标注数据为标准标注数据库中的标注数据,且所述第二情感标注数据与所述第一情感标注数据之间存在至少部分相同的标注样本,所述N为正整数;基于所述每组第一情感标注数据与所述M组第一情感标注数据中的每组其他第一情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第二标注得分,所述加权一致性分数依据的一致性权重由标注的情感标签之间的关联度确定;基于所述每组第一情感标注数据对应的第一标注得分以及第二标注得分,对所述每组第一情感标注数据进行校验。2.根据权利要求1所述的方法,其特征在于,在所述基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分之前,所述方法还包括:基于所述标准标注数据库中的第二情感标注数据,确定每个样本对应各情感标签被标注的次数;基于所述每个样本对应各情感标签被标注的次数,确定每两个情感标签之间的一致性权重。3.根据权利要求2所述的方法,其特征在于,所述基于所述每个情感标签被标注的次数,确定每两个情感标签之间的一致性权重,包括:基于所述每个样本对应各情感标签被标注的次数,确定每两个情感标签之间的关联度系数;基于所述每两个情感标签之间的关联度系数,确定每两个情感标签之间的一致性权重,所述一致性权重与所述关联度系数呈负相关。4.根据权利要求1所述的方法,其特征在于,所述基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分,包括:分别获取所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,得到所述每组第一情感标注数据对应的N个一致性分数;获取所述每组第一情感标注数据对应的N个一致性分数的均值,得到所述每组第一情感标注数据对应的第一标注得分。5.根据权利要求4所述的方法,其特征在于,所述获取所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,得到所述每组第一情感标注数据对应的N个一致性分数,包括:基于所述每组第一情感标注数据与N组第二情感标注数据中的每组第二情感标注数据,生成所述每组第一情感标注数据对应的N个列联表;基于所述每组第一情感标注数据对应的N个列联表,以及一致性权重,获取所述每组第一情感标注数据与所述每组第二情感标注数据之间的加权Kappa相关系数,得到所述每组
第一情感标注数据对应的N个一致性分数,所述一致性权重由标注的情感标签之间的关联度确定。6.根据权利要求1所述的方法,其特征在于,所述基于所述每组第一情感标注数据与所述M组第一情感标注数据中其他第一情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第二标注得分,包括:获取所述每组第一情感标注数据与所述M组第一情感标注数据中除所述每组第一情感标注数据以外的每组其他第一情感标注数据之间的加权一致性分数,得到所述每组第一情感标注数据对应的M

1个一致性分数;获取所述每组第一情感标注数据对应的M

1个一致性分数的均值,得到所述每组第一情感标注数据对应的第二标注得分。7....

【专利技术属性】
技术研发人员:郄楠周可远杨宇哲许立武张鹏李亚乾郭彦东
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1