【技术实现步骤摘要】
标签标注质量的确定方法、装置、设备、介质及产品
[0001]本申请涉及人工智能领域,特别涉及一种标签标注质量的确定方法、装置、设备、介质及产品。
技术介绍
[0002]在人工智能(Artificial Intelligence,AI)领域中,机器学习模型的训练包括有监督训练和无监督训练,其中,机器学习模型的有监督训练过程中需要训练样本的参与。上述训练样本中包括预先完成标签标注的样本,而训练样本中标签的标注质量往往会影响下游机器学习模型的训练效果。
[0003]相关技术中,针对训练样本标签标注的校验方法通常为由人工抽样校验的方法。其中,人工抽样校验为在已完成标注的样本数据中随机抽样一定数量的样本进行人工二次复核,即,通过人工复核的方式保证标签的标注质量。
[0004]然而,以上述方式实现的训练样本标签的标注质量的复核过程较为依赖人工,需要耗费较多的人力资源,且评估效率较低。
技术实现思路
[0005]本申请实施例提供了一种标签标注质量的确定方法、装置、设备、介质及产品,提升了对标签标注质量的评估效率。所述技术方案如下:
[0006]一方面,提供了一种标签标注质量的确定方法,所述方法包括:
[0007]从样本数据集合中获取目标样本数据,所述样本数据集合中的样本数据对应标注有样本标签,所述目标样本数据对应标注有第一样本标签;
[0008]基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,所 ...
【技术保护点】
【技术特征摘要】
1.一种标签标注质量的确定方法,其特征在于,所述方法包括:从样本数据集合中获取目标样本数据,所述样本数据集合中的样本数据对应标注有样本标签,所述目标样本数据对应标注有第一样本标签;基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,所述相似样本数据对应标注有第二样本标签,所述候选样本数据是所述样本数据集合中与所述目标样本数据不同的样本数据;基于所述第一样本标签和所述第二样本标签之间的标签相似度,确定所述第一样本标签与所述第二样本标签之间的标签匹配信息;基于所述标签匹配信息,确定所述目标样本数据的标签标注质量。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,包括:获取所述目标样本数据与所述候选样本数据之间的相似度数据,所述相似度数据用于指示所述目标样本数据和所述候选样本数据之间数据内容的相似度;响应于所述相似度数据达到样本相似度阈值,将所述候选样本数据确定为所述相似样本数据。3.根据权利要求2所述的方法,其特征在于,所述获取所述目标样本数据与所述候选样本数据之间的相似度数据,包括:获取所述目标样本数据对应的第一特征表示和所述候选样本数据对应的第二特征表示;基于所述第一特征表示和所述第二特征表示之间的角度数据,确定所述相似度数据,所述角度数据用于指示所述第一特征表示和所述第二特征表示在特征空间中形成的夹角情况;或者,基于所述第一特征表示和所述第二特征表示之间的距离数据,确定所述相似度数据,所述距离数据用于指示所述第一特征表示和所述第二特征表示在所述特征空间中的距离情况。4.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述第一样本标签和所述第二样本标签之间的标签相似度,确定所述第一样本标签与所述第二样本标签之间的标签匹配信息,包括:获取所述目标样本数据和所述相似样本数据之间的相似度数据,所述相似度数据由所述目标样本数据与所述相似样本数据之间的数据内容相似度确定;获取所述第一样本标签和所述第二样本标签之间的匹配度数据,所述匹配度数据由所述第一样本标签和所述第二样本标签之间的标签相似度确定;将所述匹配度数据映射为所述相似样本数据对应的匹配权重数据,所述匹配权重数据用于指示所述匹配度数据下所述相似度数据对于所述标签匹配信息的贡献情况;基于所述匹配权重数据和所述相似度数据确定所述标签匹配信息。5.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述目标样本数据与候选样本数据之间的数据内容相似度,从所述候选样本数据中确定出与所述目标样本数据符合相似度要求的相似样本数据,包括:
基于所述样本数据集合中样本数据之间的聚类情况,从所述候选样本数据中确定出所述目标样本数据对应的召回样本数据,所述召回样本数据与所述目标样本数据为经过聚类后属于同一样本簇的样本数据;基于所述目标样本数据与所述召回样本数据之间的数据内容相似度,确定所述相似样本数据。6.根据权利要求5所述的方法,其特征在于,所述基于所述样本数据集合中样本数据之间的聚类情况,从所述候选样本数据中确定出所述目标样本数据对应的召回样本数据,包括:对所述样本数据集合中的样本数据进行聚类,得到样本簇集合,所述样本簇集合中包括目标样本簇;获取所述目标样本数据与所述目标样本簇之间的簇心相似度,所述簇心相似度由所述目标数据样本与簇心样本数据之间的数据内容相似度确定,所述簇心样本数据用于指示所述目标样本簇的聚类中心点;响应于所述目标样本簇对应的所述簇心相似度满足聚类相似条件,将所述目标样本簇中的样本数据确定为所述召回样本数据。7.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:将所述样本数据集合中的样本数据作为所述目标样本数据进行遍历,获取所述样本数据集合中样本数据分别对应的标签标注质量;将所述样本数据中样本数据分别对应的标签标注质量的均值作为所述样本数据集合的集合质量数据。8.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:响应于所述标签标注质量与标签质量条件匹配失败,基于所述目标样本数据和所述相似样本数据生成矛盾样本库,所述矛盾样本库用于保存存在所述相似关系且存在标注矛盾关系的样本数据。9.根据权利要求8所述的方法,其特征在于,所述矛盾样本库中包括至少一个矛盾样本集合;所述基于所述目标样本数据和所述相似样本数据生成矛盾样本库,包括:根据所述目标样本数据和所述相似样本数据生成目标样本集合;响应于所述目标样本集合满足去重筛选条件,将所述目标样本集合作为所述矛盾样本集合保存于所述矛盾样本库中,所述去重筛选条件用于对放入所述矛盾样本库中的样本数据进行去重。10.根据权利要求1至3任一所述的方法,其特征在于,当所述目标样本数据标注有至少两个第一样本标签时,所述基于所述标签匹配信息,确定所述目标样本数据的标签标注质量,包括:获取所述至少两个第一样本标签之间的标签权重关系;基于所述标签权重关系,对所述至少两个第一样本标签对应的所述标签标注质量进行加权求和,得到所述目标样本数据的综合标签标注质...
【专利技术属性】
技术研发人员:刘伟杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。