【技术实现步骤摘要】
标注数据的校验方法、装置、计算机设备及存储介质
[0001]本申请涉及人工智能
,更具体地,涉及一种标注数据的校验方法、装置、计算机设备及存储介质。
技术介绍
[0002]随着科技水平的迅速发展,涉及情感标注数据的深度学习引起了人们极大的研究兴趣,并同时在很多应用产品中部署,例如利用情感标注数据训练语音对话模型、图像评价模型等。但是,在对样本数据进行情感标注时,容易受到标注人员的主观性、个性化的影响,进而影响了情感标注数据的标注准确性。
技术实现思路
[0003]本申请提出了一种标注数据的校验方法、装置、计算机设备及存储介质,可以实现对情感标注数据的准确校验。
[0004]第一方面,本申请实施例提供了一种标注数据的校验方法,所述方法包括:获取针对同一标注样本集的M组第一情感标注数据,其中,每组第一情感标注数据的标注用户不同,所述M为正整数;基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分,所述第二情感标注数据为标准标注数据库中的标注数据,且所述第二情感标注数据与所述第一情感标注数据之间存在至少部分相同的标注样本,所述N为正整数;基于所述每组第一情感标注数据与所述M组第一情感标注数据中的每组其他第一情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第二标注得分,所述加权一致性分数依据的一致性权重由标注的情感标签之间的关联度确定;基于所述每组第一情感标注数据对应的第一标注得分以及第二 ...
【技术保护点】
【技术特征摘要】
1.一种标注数据的校验方法,其特征在于,所述方法包括:获取针对同一标注样本集的M组第一情感标注数据,其中,每组第一情感标注数据的标注用户不同,所述M为正整数;基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分,所述第二情感标注数据为标准标注数据库中的标注数据,且所述第二情感标注数据与所述第一情感标注数据之间存在至少部分相同的标注样本,所述N为正整数;基于所述每组第一情感标注数据与所述M组第一情感标注数据中的每组其他第一情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第二标注得分,所述加权一致性分数依据的一致性权重由标注的情感标签之间的关联度确定;基于所述每组第一情感标注数据对应的第一标注得分以及第二标注得分,对所述每组第一情感标注数据进行校验。2.根据权利要求1所述的方法,其特征在于,在所述基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分之前,所述方法还包括:基于所述标准标注数据库中的第二情感标注数据,确定每个样本对应各情感标签被标注的次数;基于所述每个样本对应各情感标签被标注的次数,确定每两个情感标签之间的一致性权重。3.根据权利要求2所述的方法,其特征在于,所述基于所述每个情感标签被标注的次数,确定每两个情感标签之间的一致性权重,包括:基于所述每个样本对应各情感标签被标注的次数,确定每两个情感标签之间的关联度系数;基于所述每两个情感标签之间的关联度系数,确定每两个情感标签之间的一致性权重,所述一致性权重与所述关联度系数呈负相关。4.根据权利要求1所述的方法,其特征在于,所述基于所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第一标注得分,包括:分别获取所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,得到所述每组第一情感标注数据对应的N个一致性分数;获取所述每组第一情感标注数据对应的N个一致性分数的均值,得到所述每组第一情感标注数据对应的第一标注得分。5.根据权利要求4所述的方法,其特征在于,所述获取所述每组第一情感标注数据与N组第二情感标注数据中每组第二情感标注数据之间的加权一致性分数,得到所述每组第一情感标注数据对应的N个一致性分数,包括:基于所述每组第一情感标注数据与N组第二情感标注数据中的每组第二情感标注数据,生成所述每组第一情感标注数据对应的N个列联表;基于所述每组第一情感标注数据对应的N个列联表,以及一致性权重,获取所述每组第一情感标注数据与所述每组第二情感标注数据之间的加权Kappa相关系数,得到所述每组
第一情感标注数据对应的N个一致性分数,所述一致性权重由标注的情感标签之间的关联度确定。6.根据权利要求1所述的方法,其特征在于,所述基于所述每组第一情感标注数据与所述M组第一情感标注数据中其他第一情感标注数据之间的加权一致性分数,确定所述每组第一情感标注数据对应的第二标注得分,包括:获取所述每组第一情感标注数据与所述M组第一情感标注数据中除所述每组第一情感标注数据以外的每组其他第一情感标注数据之间的加权一致性分数,得到所述每组第一情感标注数据对应的M
‑
1个一致性分数;获取所述每组第一情感标注数据对应的M
‑
1个一致性分数的均值,得到所述每组第一情感标注数据对应的第二标注得分。7....
【专利技术属性】
技术研发人员:郄楠,周可远,杨宇哲,许立武,张鹏,李亚乾,郭彦东,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。