标签标注质量的确定方法、装置、设备、介质及产品制造方法及图纸

技术编号:33153923 阅读:58 留言:0更新日期:2022-04-22 14:09
本申请公开了一种标签标注质量的确定方法、装置、设备、介质及产品,涉及人工智能领域。该方法包括:从样本数据集合中获取目标样本数据,目标样本数据对应标注有第一样本标签;基于目标样本数据与候选样本数据之间的数据内容相似度,从候选样本数据中确定出与目标样本数据符合相似度要求的相似样本数据,相似样本数据对应标注有第二样本标签;基于第一样本标签和第二样本标签之间的标签相似度,确定第一样本标签与第二样本标签之间的标签匹配信息;基于标签匹配信息,确定目标样本数据的标签标注质量。自动化地实现了标签质量的评估过程,提升了质量评估效率。提升了质量评估效率。提升了质量评估效率。

【技术实现步骤摘要】
标签标注质量的确定方法、装置、设备、介质及产品


[0001]本申请涉及人工智能领域,特别涉及一种标签标注质量的确定方法、装置、设备、介质及产品。

技术介绍

[0002]在人工智能(Artificial Intelligence,AI)领域中,机器学习模型的训练包括有监督训练和无监督训练,其中,机器学习模型的有监督训练过程中需要训练样本的参与。上述训练样本中包括预先完成标签标注的样本,而训练样本中标签的标注质量往往会影响下游机器学习模型的训练效果。
[0003]相关技术中,针对训练样本标签标注的校验方法通常为由人工抽样校验的方法。其中,人工抽样校验为在已完成标注的样本数据中随机抽样一定数量的样本进行人工二次复核,即,通过人工复核的方式保证标签的标注质量。
[0004]然而,以上述方式实现的训练样本标签的标注质量的复核过程较为依赖人工,需要耗费较多的人力资源,且评估效率较低。

技术实现思路

[0005]本申请实施例提供了一种标签标注质量的确定方法、装置、设备、介质及产品,提升了对标签标注质量的评估效率。所述技术方案如下:
[0006]一方面,提供了一种标签标注质量的确定方法,所述方法包括:
[0007]从样本数据集合中获取目标样本数据,所述样本数据集合中的样本数据对应标注有样本标签,所述目标样本数据对应标注有第一样本标签;
[0008]基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,所述相似样本数据对应标注有第二样本标签,所述候选样本数据是所述样本数据集合中与所述目标样本数据不同的样本数据;
[0009]基于所述第一样本标签和所述第二样本标签之间的标签相似度,确定所述第一样本标签与所述第二样本标签之间的标签匹配信息;
[0010]基于所述标签匹配信息,确定所述目标样本数据的标签标注质量。
[0011]另一方面,提供了一种标签标注质量的确定方法,所述方法包括:
[0012]显示交互界面,所述交互界面提供有标签质量确定功能,所述标签质量确定功能用于确定样本数据集合中样本数据的标签标注质量;
[0013]在所述交互界面中接收数据上传操作,所述数据上传操作用于将包括目标样本数据的所述样本数据集合上传至服务器,所述样本数据集合中的样本数据对应标注有样本标签,所述目标样本数据对应标注有第一样本标签;
[0014]显示质量分析结果,所述质量分析结果用于指示所述目标样本数据的标签标注质量,所述标签标注质量由所述服务器基于所述目标样本数据与候选样本数据之间的数据内
容相似度,确定出符合相似度要求的相似样本数据后,通过获取所述第一样本标签与第二样本标签之间的标签匹配信息确定的,所述相似样本数据对应标注有所述第二样本标签,所述候选样本数据是所述样本数据集合中与所述目标样本数据不同的样本数据。
[0015]另一方面,提供了一种标签标注质量的确定装置,所述装置包括:
[0016]获取模块,用于从样本数据集合中获取目标样本数据,所述样本数据集合中的样本数据对应标注有样本标签,所述目标样本数据对应标注有第一样本标签;
[0017]确定模块,用于基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,所述相似样本数据对应标注有第二样本标签,所述候选样本数据是所述样本数据集合中与所述目标样本数据不同的样本数据;
[0018]所述获取模块,还用于基于所述第一样本标签和所述第二样本标签之间的标签相似度,确定所述第一样本标签与所述第二样本标签之间的标签匹配信息;
[0019]所述确定模块,还用于基于所述标签匹配信息,确定所述目标样本数据的标签标注质量。
[0020]另一方面,提供了一种标签标注质量的确定装置,所述装置包括:
[0021]显示模块,用于显示交互界面,所述交互界面提供有用于确定标签标注质量的功能;
[0022]接收模块,用于在所述交互界面中接收数据上传操作,所述数据上传操作用于将包括目标样本数据的所述样本数据集合上传至服务器,所述样本数据集合中的样本数据对应标注有样本标签,所述目标样本数据对应标注有第一样本标签;
[0023]所述显示模块,还用于显示质量分析结果,所述质量分析结果用于指示所述目标样本数据的标签标注质量,所述标签标注质量由所述服务器基于所述目标样本数据与候选样本数据之间的数据内容相似度,确定出符合相似度要求的相似样本数据后,通过获取所述第一样本标签与第二样本标签之间的标签匹配信息确定的,所述相似样本数据对应标注有所述第二样本标签,所述候选样本数据是所述样本数据集合中与所述目标样本数据不同的样本数据。
[0024]另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的标签标注质量的确定方法。
[0025]另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的标签标注质量的确定方法。
[0026]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的标签标注质量的确定方法。
[0027]本申请的提供的技术方案至少包括以下有益效果:
[0028]在样本数据完成标签标注后,在需要对标注的标签进行质量评估时,获取与目标
样本数据存在相似关系的相似样本数据,通过目标样本数据的样本标签与相似样本数据的样本标签之间的标签相似度,确定目标样本数据对应的标签标注质量,从而自动化地实现对样本数据的标签质量的评估过程,提升了质量评估效率。
附图说明
[0029]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1是本申请一个示例性实施例提供的计算机系统的示意图;
[0031]图2是本申请一个示例性实施例提供的终端设备与服务器之间的架构示意图;
[0032]图3是本申请一个示例性实施例提供的标签标注质量的确定方法流程图;
[0033]图4是本申请一个示例性实施例提供的相似样本数据的筛选示意图;
[0034]图5是本申请一个示例性实施例提供的目标样本数据的标签标注质量确定流程示意图;
[0035本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签标注质量的确定方法,其特征在于,所述方法包括:从样本数据集合中获取目标样本数据,所述样本数据集合中的样本数据对应标注有样本标签,所述目标样本数据对应标注有第一样本标签;基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,所述相似样本数据对应标注有第二样本标签,所述候选样本数据是所述样本数据集合中与所述目标样本数据不同的样本数据;基于所述第一样本标签和所述第二样本标签之间的标签相似度,确定所述第一样本标签与所述第二样本标签之间的标签匹配信息;基于所述标签匹配信息,确定所述目标样本数据的标签标注质量。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,包括:获取所述目标样本数据与所述候选样本数据之间的相似度数据,所述相似度数据用于指示所述目标样本数据和所述候选样本数据之间数据内容的相似度;响应于所述相似度数据达到样本相似度阈值,将所述候选样本数据确定为所述相似样本数据。3.根据权利要求2所述的方法,其特征在于,所述获取所述目标样本数据与所述候选样本数据之间的相似度数据,包括:获取所述目标样本数据对应的第一特征表示和所述候选样本数据对应的第二特征表示;基于所述第一特征表示和所述第二特征表示之间的角度数据,确定所述相似度数据,所述角度数据用于指示所述第一特征表示和所述第二特征表示在特征空间中形成的夹角情况;或者,基于所述第一特征表示和所述第二特征表示之间的距离数据,确定所述相似度数据,所述距离数据用于指示所述第一特征表示和所述第二特征表示在所述特征空间中的距离情况。4.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述第一样本标签和所述第二样本标签之间的标签相似度,确定所述第一样本标签与所述第二样本标签之间的标签匹配信息,包括:获取所述目标样本数据和所述相似样本数据之间的相似度数据,所述相似度数据由所述目标样本数据与所述相似样本数据之间的数据内容相似度确定;获取所述第一样本标签和所述第二样本标签之间的匹配度数据,所述匹配度数据由所述第一样本标签和所述第二样本标签之间的标签相似度确定;将所述匹配度数据映射为所述相似样本数据对应的匹配权重数据,所述匹配权重数据用于指示所述匹配度数据下所述相似度数据对于所述标签匹配信息的贡献情况;基于所述匹配权重数据和所述相似度数据确定所述标签匹配信息。5.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,包括:
基于所述样本数据集合中样本数据之间的聚类情况,从所述候选样本数据中确定出所述目标样本数据对应的召回样本数据,所述召回样本数据与所述目标样本数据为经过聚类后属于同一样本簇的样本数据;基于所述目标样本数据与所述召回样本数据之间的数据内容相似度,确定所述相似样本数据。6.根据权利要求5所述的方法,其特征在于,所述基于所述样本数据集合中样本数据之间的聚类情况,从所述候选样本数据中确定出所述目标样本数据对应的召回样本数据,包括:对所述样本数据集合中的样本数据进行聚类,得到样本簇集合,所述样本簇集合中包括目标样本簇;获取所述目标样本数据与所述目标样本簇之间的簇心相似度,所述簇心相似度由所述目标数据样本与簇心样本数据之间的数据内容相似度确定,所述簇心样本数据用于指示所述目标样本簇的聚类中心点;响应于所述目标样本簇对应的所述簇心相似度满足聚类相似条件,将所述目标样本簇中的样本数据确定为所述召回样本数据。7.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:将所述样本数据集合中的样本数据作为所述目标样本数据进行遍历,获取所述样本数据集合中样本数据分别对应的标签标注质量;将所述样本数据中样本数据分别对应的标签标注质量的均值作为所述样本数据集合的集合质量数据。8.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:响应于所述标签标注质量与标签质量条件匹配失败,基于所述目标样本数据和所述相似样本数据生成矛盾样本库,所述矛盾样本库用于保存存在所述相似关系且存在标注矛盾关系的样本数据。9.根据权利要求8所述的方法,其特征在于,所述矛盾样本库中包括至少一个矛盾样本集合;所述基于所述目标样本数据和所述相似样本数据生成矛盾样本库,包括:根据所述目标样本数据和所述相似样本数据生成目标样本集合;响应于所述目标样本集合满足去重筛选条件,将所述目标样本集合作为所述矛盾样本集合保存于所述矛盾样本库中,所述去重筛选条件用于对放入所述矛盾样本库中的样本数据进行去重。10.根据权利要求1至3任一所述的方法,其特征在于,当所述目标样本数据标注有至少两个第一样本标签时,所述基于所述标签匹配信息,确定所述目标样本数据的标签标注质量,包括:获取所述至少两个第一样本标签之间的标签权重关系;基于所述标签权重关系,对所述至少两个第一样本标签对应的所述标签标注质量进行加权求和,得到所述目标样本数据的综合标签标注质...

【专利技术属性】
技术研发人员:刘伟杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1