样本标注的一致性处理方法、装置及电子设备制造方法及图纸

技术编号:30342311 阅读:23 留言:0更新日期:2021-10-12 23:15
本发明专利技术公开了一种样本标注的一致性处理方法、装置及电子设备,该方法包括:获取对应标注任务的记忆库,其中,所述记忆库为保存已标注的历史样本的数据库;以及,根据所述记忆库,为执行所述标注任务提供标注参照信息。该方法可以通过提供标注参照信息,可以为标注人员进行和/或修改样本的标注提供参考,从而提高对于相同样本的标注一致性。于相同样本的标注一致性。于相同样本的标注一致性。

【技术实现步骤摘要】
样本标注的一致性处理方法、装置及电子设备


[0001]本专利技术实施例涉及人工智能
,更具体地,涉及样本标注的一致性处理方法、样本标注的一致性处理装置、电子设备、及一种计算机可读存储介质。

技术介绍

[0002]机器学习包括有监督学习和无监督学习,其中,有监督学习需要使用大量的带标签的样本进行训练,以获得相应的机器学习模型,这就需要在训练模型之前,组织标注人员进行样本标注,以形成带标签的样本。
[0003]在样本标注中,由于不同的人对于相同的数据可能进行不同的标注,而且,同一人在进行大量的标注中也会出现对于相同的数据进行不同标注的情况,因此,在同一标注任务及不同标注任务的标注操作中,都会出现对于相同数据进行不同标注的情况。然而,对于机器学习而言,对于相同的数据,能够保持标注内容(即标签)的一致性是很重要的,这可以极大地提高标注质量,进而提高训练得到的机器学习模型在评价指标上的评分,因此,非常有必要在人工执行标注任务中提供有助于提高标注一致性的相关处理,进而提高标注的准确性及标注效率。

技术实现思路

[0004]本专利技术实施例的一个目的是提供一种在执行标注任务中进行有关标注一致性处理的新的技术方案。
[0005]根据本专利技术的第一方面,提供了一种样本标注的一致性处理方法,其包括:
[0006]获取对应标注任务的记忆库,其中,所述记忆库为保存已标注的历史样本的数据库;
[0007]根据所述记忆库,为执行所述标注任务提供标注参照信息。
[0008]可选地,所述获取对应标注任务的记忆库包括:
[0009]根据对于记忆库的选择信息和所述标注任务的任务定义信息中的至少一项,获取对应所述标注任务的记忆库。
[0010]可选地,所述获取对应标注任务的记忆库包括:
[0011]在记忆库列表中搜索与所述标注任务的应用场景相适配的记忆库,其中,所述记忆库列表包括多个记忆库条目,每个记忆库条目包括对应记忆库的标识、对应记忆库的应用场景及对应记忆库的获取地址;
[0012]根据搜索到的记忆库,确定所述对应标注任务的记忆库;
[0013]根据所述对应标注任务的记忆库的获取地址,获得所述对应标注任务的记忆库。
[0014]可选地,每个记忆库条目还包括对应记忆库的调用信息,所述调用信息包括调用次数、调用时间和调用账户中的至少一项;
[0015]所述根据搜索到的记忆库,确定所述对应标注任务的记忆库包括:
[0016]在搜索到至少两个记忆库的情况下,根据所述至少两个记忆库各自的调用信息,
确定所述对应标注任务的记忆库。可选地,所述根据所述记忆库,为执行所述标注任务提供标注参照信息包括:
[0017]针对所述标注任务中的待标注样本,获取所述记忆库中的、与所述待标注样本具有相同数据内容的历史样本;
[0018]根据获取到的历史样本的标注内容,提供对于所述待标注样本的标注参照信息。
[0019]可选地,所述获取所述记忆库中的、与所述待标注样本具有相同数据内容的历史样本,包括:
[0020]在所述记忆库中具有至少两个所述历史样本的情况下,根据所述至少两个所述历史样本各自的调用信息,获取所需的历史样本;
[0021]所述调用信息包括调用次数、调用时间和调用账户中的至少一项。
[0022]可选地,所述方法还包括:
[0023]针对所述标注任务中的待标注样本,获取由预置的标注推荐模型给出的标注推荐内容;
[0024]根据所述标注推荐内容,提供对于所述待标注样本的标注参照信息。
[0025]可选地,所述方法还包括:
[0026]针对所述标注任务中的待标注样本,获取所述标注任务中的、与所述待标注样本具有相同数据内容的已标注样本;
[0027]根据获取到的所述已标注样本的标注内容,提供对于所述待标注样本的标注参照信息。
[0028]可选地,所述根据所述记忆库,为执行所述标注任务提供标注参照信息包括:
[0029]获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本;
[0030]根据获取到的历史样本的标注内容,对所述已标注样本进行标注内容的一致性检查;
[0031]根据所述一致性检查的检查结果,提供对于所述已标注样本的标注参照信息。
[0032]可选地,所述标注参照信息包括未通过所述一致性检查的已标注样本的检查结果信息,每条所述检查结果信息包括对应样本的数据内容和/或数据标识、对应样本在所述标注任务中的当前标注内容、及对应样本在所述记忆库中的在先标注内容。
[0033]可选地,所述获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本包括:
[0034]根据完成所述标注任务的命令,获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本。
[0035]可选地,所述方法还包括在所述记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本的步骤,包括:
[0036]获取所述标注任务中的样本对于设定的反映样本数据内容的特征向量的向量值;
[0037]获取所述历史样本对于所述特征向量的向量值;
[0038]比较所述标注任务中的样本的向量值与所述历史样本的向量值,获得比较结果;
[0039]根据所述比较结果,获得与所述标注任务中的样本具有相同数据内容的历史样本。
[0040]可选地,所述在所述记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本的包括:
[0041]根据设定的搜索事件,在所述记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本,其中,所述搜索事件包括开始所述标注任务的命令和结束所述标注任务的命令中的至少一项。
[0042]可选地,所述方法还包括:
[0043]在所述标注任务的范围内,对所述标注任务的已标注样本的标注内容进行一致性检查;
[0044]根据所述一致性检查的检测结果,提供对于所述已标注样本的标注参照信息。
[0045]可选地,所述方法还包括:
[0046]将所述标注任务中的通过所述一致性检查的已标注样本保存至所述记忆库。
[0047]根据本专利技术的第二方面,还提供了一种样本标注的一致性处理方法,由终端设备实施,该方法包括:
[0048]获取对于所述标注任务中样本的标注参照信息,其中,所述标注参照信息至少根据记忆库中保存的历史样本生成,所述历史样本为已标注的样本;
[0049]输出所述标注参照信息。
[0050]可选地,所述标注参照信息还根据所述标注任务中的已标注样本生成;和/或,所述标注参照信息还根据预置的标注推荐模型给出的标注推荐内容生成。
[0051]可选地,所述获取对于所述标注任务中样本的标注参照信息包括:
[0052]响应于对所述标注任务中的待标注样本进行的标注操作,获取对于所述待标注样本的所述标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本标注的一致性处理方法,包括:获取对应标注任务的记忆库,其中,所述记忆库为保存已标注的历史样本的数据库;根据所述记忆库,为执行所述标注任务提供标注参照信息。2.根据权利要求1所述的方法,其中,所述获取对应标注任务的记忆库包括:根据对于记忆库的选择信息和所述标注任务的任务定义信息中的至少一项,获取对应所述标注任务的记忆库。3.根据权利要求1所述的方法,其中,所述获取对应标注任务的记忆库包括:在记忆库列表中搜索与所述标注任务的应用场景相适配的记忆库,其中,所述记忆库列表包括多个记忆库条目,每个记忆库条目包括对应记忆库的标识、对应记忆库的应用场景及对应记忆库的获取地址;根据搜索到的记忆库,确定所述对应标注任务的记忆库;根据所述对应标注任务的记忆库的获取地址,获得所述对应标注任务的记忆库。4.根据权利要求3所述的方法,其中,每个记忆库条目还包括对应记忆库的调用信息,所述调用信息包括调用次数、调用时间和调用账户中的至少一项;所述根据搜索到的记忆库,确定所述对应标注任务的记忆库包括:在搜索到至少两个记忆库的情况下,根据所述至少两个记忆库各自的调用信息,确定所述对应标注任务的记忆库。5.根据权利要求1所述的方法,其中,所述根据所述记忆库,为执行所述标注任务提供标注参照信息包括:针对所述标注任务中的待标注样本,获取所述记忆库中的、与所述待标注样本具有相同数据内容的历史样本;根据获取到的历史样本的标注内容,提供对于所述待标注样本的标注参照信息。6.根据权利要求5所述的方法,其中,所述获取所述记忆库中的、与所述待标注样本具有相同数据内容的历史样本,包括:在所述记忆库中具有至少两个所述历史样本的情况下,根据所述至少两个所述历史样本各自的调用信息,获取所需的历史样本;所述调用信息包括调用次数、调用时间和调用账户中的至少一项。7.根据权利要求1所述的方法,其中,所述方法还包括:针对所述标注任务中的待标注样本,获取由预置的标注推荐模型给出的标注推荐内容;根据所述标注推荐内容,提供对于所述待标注样本的标注参照信息。8.根据权利要求1所述的方法,其中,所述方法还包括:针对所述标注任务中的待标注样本,获取所述标注任务中的、与所述待标注样本具有相同数据内容的已标注样本;根据获取到的所述已标注样本的标注内容,提供对于所述待标注样本的标注参照信息。9.根据权利要求1所述的方法,其中,所述根据所述记忆库,为执行所述标注任务提供标注参照信息包括:获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样
本;根据获取到的历史样本的标注内容,对所述已标注样本进行标注内容的一致性检查;根据所述一致性检查的检查结果,提供对于所述已标注样本的标注参照信息。10.根据权利要求9所述的方法,其中,所述标注参照信息包括未通过所述一致性检查的已标注样本的检查结果信息,每条所述检查结果信息包括对应样本的数据内容和/或数据标识、对应样本在所述标注任务中的当前标注内容、及对应样本在所述记忆库中的在先标注内容。11.根据权利要求10所述的方法,其中,所述获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本包括:根据完成所述标注任务的命令,获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本。12.根据权利要求5、9-11中任一项所述的方法,其中,所述方法还包括在所述记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本的步骤,包括:获取所述标注任务中的样本对于设定特征向量的向量值,其中,所述特征向量包括反映样本数据内容的特征;获取所述历史样本对于所述特征向量的向量值;比较所述标注任务中的样本的向量值与所述历史样本的向量值,获得比较结果;根据所述比较结果,获得与所述标注任务中的样本具有相同数据内容的历史样本。13.根据权利要求12所述的方法,其中,所述在所述记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本的包...

【专利技术属性】
技术研发人员:冯泽宇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1