基于人工智能的数据标注方法、装置、电子设备及介质制造方法及图纸

技术编号:30529505 阅读:22 留言:0更新日期:2021-10-27 23:19
本发明专利技术涉及人工智能技术领域,提供一种基于人工智能的数据标注方法、装置、电子设备及介质,通过结合语料标注者的用户画像从待标注语料中获取目标待标注语料,在对目标待标注语料进行分组之后,确定每组目标待标注语料对应的目标语料标注者,并为每组目标待标注语料生成差异化的测试语料集,从而将测试语料集发送给对应组的目标语料标注者进行标注测试,进而通过获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;基于所述语料置信度得到对应组的目标待标注语料的目标语料标签,语料标注的质量高,且可信度高。且可信度高。且可信度高。

【技术实现步骤摘要】
基于人工智能的数据标注方法、装置、电子设备及介质


[0001]本专利技术涉及人工智能
,具体涉及一种基于人工智能的数据标注方法、装置、电子设备及介质。

技术介绍

[0002]在数据爆炸时代,每天都有海量数据以各种形式,例如,文本、图像、音视频等,通过各类电子终端汇总到企业级数据仓库内,充足的数据为训练人工智能模型带来了有利条件,其中,有监督的模型的性能表现最佳,但有监督的模型需要有标签的数据。
[0003]专利技术人在实现本专利技术的过程中发现,通过伪标签的方式为数据生成伪标签,会导致数据标签质量一般,对于模型性能的提升也有限;而通过人工的方式标注数据,由于语料标注者对多个数据进行标注,但语料标注者在倦怠时极易出错,导致标注质量降低,且无法衡量这个语料标注者标注的数据标签是否是可信的。

技术实现思路

[0004]鉴于以上内容,有必要提出一种基于人工智能的数据标注方法、装置、电子设备及介质,能够提高语料标注的质量,语料标注的可信度较高。
[0005]本专利技术的第一方面提供一种基于人工智能的数据标注方法,所述方法包括:获取待标注语料及语料标注者的用户画像;根据所述用户画像从所述待标注语料中获取目标待标注语料;对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试;获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
[0006]根据本专利技术的一个可选的实施方式,所述根据所述用户画像从所述待标注语料中获取目标待标注语料包括:对所述待标注语料进行清洗;根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料;获取所述第一类待标注语料的语料标注等级要求;根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料。
[0007]根据本专利技术的一个可选的实施方式,所述根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料包括:
将所述清洗后的待标注语料输入至语料领域分类模型中进行分类,得到目标语料领域;根据所述用户画像得到语料领域集合;以所述目标语料领域为关键词检索所述语料领域集合;当从所述语料领域集合中检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第一类待标注语料;当从所述语料领域集合中没有检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第二类待标注语料。
[0008]根据本专利技术的一个可选的实施方式,所述根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料包括:从所述用户画像中获取所述语料标注者的学历等级;确定所述学历等级中的最高学历等级;获取所述语料标注等级要求中低于所述最高学历等级的目标语料标注等级要求;确定所述目标语料标注等级要求对应的第一类待标注语料为所述目标待标注语料。
[0009]根据本专利技术的一个可选的实施方式,所述基于每组目标待标注语料生成测试语料集包括:对于任意一个目标待标注语料,计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度;根据所述第一相似度确定所述任意一个目标待标注语料的目标对照语料;通过对抗神经网络为所述目标对照语料生成多个扩充语料;计算所述任意一个目标待标注语料与每个所述扩充语料的第二相似度;根据所述第二相似度确定所述任意一个目标待标注语料的目标扩充语料;将所述目标对照语料及所述目标扩充语料合并至对应组的目标待标注语料中,得到测试语料集。
[0010]根据本专利技术的一个可选的实施方式,所述根据所述语料标签计算对应组的目标待标注语料的语料置信度包括:获取每个所述目标语料标注者标注每个所述目标对照语料的第一测试语料标签、标注每个所述目标对照语料对应的目标扩充语料的第二测试语料标签及每个目标对照语料的真实语料标签;根据第一测试语料标签及对应的所述真实语料标签计算对应的所述目标语料标注者的第一标注测试正确率;根据多个所述目标语料标注者的第一标注测试正确率计算得到第一语料置信度;根据所述第二测试语料标签与对应的目标对照语料的真实语料标签计算对应的所述目标语料标注者的第二标注测试正确率;根据多个所述目标语料标注者的第二标注测试正确率计算得到第二语料置信度;基于所述第一语料置信度及所述第二语料置信度得到对应组的目标待标注语料的语料置信度。
[0011]根据本专利技术的一个可选的实施方式,所述方法还包括:
将所述第二类待标注语料及所述第一类待标注语料中除所述目标待标注语料之外的待标注语料,分配给第三方标注机构进行标注;接收所述第三方标注机构标注的语料标签。
[0012]本专利技术的第二方面提供一种基于人工智能的数据标注装置,所述装置包括:获取模块,用于获取待标注语料及语料标注者的用户画像;筛选模块,用于根据所述用户画像从所述待标注语料中获取目标待标注语料;分组模块,用于对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;测试模块,用于基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试;计算模块,用于获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;确定模块,用于基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
[0013]本专利技术的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于人工智能的数据标注方法。
[0014]本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的数据标注方法。
[0015]综上所述,本专利技术所述的基于人工智能的数据标注方法、装置、电子设备及介质,通过结合语料标注者的用户画像从待标注语料中获取目标待标注语料,在对目标待标注语料进行分组之后,确定每组目标待标注语料对应的目标语料标注者,并为每组目标待标注语料生成差异化的测试语料集,从而将测试语料集发送给对应组的目标语料标注者进行标注测试,进而通过获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;基于所述语料置信度得到对应组的目标待标注语料的目标语料标签,语料标注的质量高,且可信度高。
附图说明
[0016]图1是本专利技术实施例一提供的基于人工智能的数据标注方法的流程图。
[0017]图2是本专利技术实施例二提供的基于人工智能的数据标注装置的结构图。
[0018]图3是本专利技术实施例三提供的电子设备的结构示意图。
具体实施方式
[0019]为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施例对本专利技术进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的数据标注方法,其特征在于,所述方法包括:获取待标注语料及语料标注者的用户画像;根据所述用户画像从所述待标注语料中获取目标待标注语料;对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试;获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。2.如权利要求1所述的基于人工智能的数据标注方法,其特征在于,所述根据所述用户画像从所述待标注语料中获取目标待标注语料包括:对所述待标注语料进行清洗;根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料;获取所述第一类待标注语料的语料标注等级要求;根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料。3.如权利要求2所述的基于人工智能的数据标注方法,其特征在于,所述根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料包括:将所述清洗后的待标注语料输入至语料领域分类模型中进行分类,得到目标语料领域;根据所述用户画像得到语料领域集合;以所述目标语料领域为关键词检索所述语料领域集合;当从所述语料领域集合中检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第一类待标注语料;当从所述语料领域集合中没有检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第二类待标注语料。4.如权利要求3所述的基于人工智能的数据标注方法,其特征在于,所述根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料包括:从所述用户画像中获取所述语料标注者的学历等级;确定所述学历等级中的最高学历等级;获取所述语料标注等级要求中低于所述最高学历等级的目标语料标注等级要求;确定所述目标语料标注等级要求对应的第一类待标注语料为所述目标待标注语料。5.如权利要求2所述的基于人工智能的数据标注方法,其特征在于,所述基于每组目标待标注语料生成测试语料集包括:对于任意一个目标待标注语料,计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度;根据所述第一相似度确定所述任意一个目标待标注语料的目标对照语料;
通过对抗神经网络为所述目标对照语料生成多个扩充语料;计算所述任意一...

【专利技术属性】
技术研发人员:姜敏华
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1