System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种基于人在回路学习的数据标注方法、装置、设备及介质。
技术介绍
1、在人工智能领域,标注数据的质量直接影响着模型的性能。然而,传统的数据标注方法通常依赖于专业标注人员的经验和知识,存在如下问题:(1)传统的数据标注方法需要大量的人工成本,人工标注往往伴随着准确性低;(2)传统的数据标注方法难以在规定时间内标注大规模数据,无法满足实际需求;(3)人工标注容易出现误差,从而影响模型的训练效果。因此,如何提高数据标注的准确性是当前数据标注领域亟待解决的问题。
技术实现思路
1、本申请提供了一种基于人在回路学习的数据标注方法、装置、设备及介质,以提高数据标注的准确性。
2、第一方面,本申请提供了一种基于人在回路学习的数据标注方法,所述方法包括:
3、通过初始标注数据集初始化预设标注模型;
4、通过初始化的所述预设标注模型对目标样本进行标注,生成所述目标样本对应的目标标注内容;
5、对所述目标标注内容进行修正,并更新所述预设标注模型;
6、在更新后的所述预设标注模型满足预设条件或完成的标注样本数量达到预设数量阈值时,停止训练所述预设标注模型,并通过训练后的所述预设标注模型进行数据标注。
7、进一步的,通过初始化的所述预设标注模型对目标样本进行标注,生成所述目标样本对应的目标标注内容,包括:
8、获取所述目标样本中未标注样本;
9、计算所述未标注样本与所述训练集中全部样
10、基于预设公式计算所述未标注样本与所述训练集中全部样本的平均相似度;
11、从所述目标样本中选择低于所述平均相似度的至少一个标注内容作为所述目标标注内容。
12、进一步的,预设公式为〖sim〗_v=(∑_m▒〖sim(v,w_i)〗)/m,其中m为所述未标注样本的个数,w_i为一条未标注的样本。
13、进一步的,通过初始标注数据集初始化预设标注模型之前,包括:
14、基于所述目标样本的任务需求,对所述目标样本进行初始标注,生成所述初始标注数据集。
15、进一步的,在更新后的所述预设标注模型满足预设条件或完成的标注样本数量达到预设数量阈值时,停止训练所述预设标注模型,并通过训练后的所述预设标注模型进行数据标注之前,包括:
16、在所述目标标注内容与所述目标样本的相似度未达到所述预设相似度阈值时,则返回步骤:对所述目标标注内容进行修正,并更新所述预设标注模型。
17、进一步的,在更新后的所述预设标注模型满足预设条件或完成的标注样本数量达到预设数量阈值时,停止训练所述预设标注模型,并通过训练后的所述预设标注模型进行数据标注之前,还包括:
18、若完成标注的样本数量未达到所述预设数量阈值,则返回步骤:通过初始化的所述预设标注模型对目标样本进行标注,生成所述目标样本对应的目标标注内容。
19、第二方面,本申请还提供了一种基于人在回路学习的数据标注装置,所述装置包括:
20、模型初始化模块,用于通过初始标注数据集初始化预设标注模型;
21、标注内容生成模块,用于通过初始化的所述预设标注模型对目标样本进行标注,生成所述目标样本对应的目标标注内容;
22、修正模块,用于对所述目标标注内容进行修正,并更新所述预设标注模型;
23、数据标注模块,用于在更新后的所述预设标注模型满足预设条件或完成的标注样本数量达到预设数量阈值时,停止训练所述预设标注模型,并通过训练后的所述预设标注模型进行数据标注。
24、进一步的,标注内容生成模块包括:
25、未标注样本获取单元,用于获取所述目标样本中未标注样本;
26、相似度计算单元,用于计算所述未标注样本与所述训练集中全部样本的相似度;
27、相似度筛选单元,用于基于预设公式计算所述未标注样本与所述训练集中全部样本的平均相似度;
28、目标标注内容选择单元,用于从所述目标样本中选择低于所述平均相似度的至少一个标注内容作为所述目标标注内容。
29、第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的基于人在回路学习的数据标注方法。
30、第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的基于人在回路学习的数据标注方法。
31、本申请公开了一种基于人在回路学习的数据标注方法、装置、设备及介质,所述方法包括通过初始标注数据集初始化预设标注模型;通过初始化的所述预设标注模型对目标样本进行标注,生成所述目标样本对应的目标标注内容;对所述目标标注内容进行修正,并更新所述预设标注模型;在更新后的所述预设标注模型满足预设条件或完成的标注样本数量达到预设数量阈值时,停止训练所述预设标注模型,并通过训练后的所述预设标注模型进行数据标注。通过上述方式,本申请通过充分利用人类在数据标注过程中的反馈信息,通过反馈信息优化数据标注模型,降低人工标注。
本文档来自技高网...【技术保护点】
1.一种基于人在回路学习的数据标注方法,其特征在于,所述基于人在回路学习的数据标注方法包括:
2.根据权利要求1所述的基于人在回路学习的数据标注方法,其特征在于,所述通过初始化的所述预设标注模型对目标样本进行标注,生成所述目标样本对应的目标标注内容,包括:
3.根据权利要求2所述的基于人在回路学习的数据标注方法,其特征在于,所述预设公式为,其中M为所述未标注样本的个数,为一条未标注的样本。
4.根据权利要求1所述的基于人在回路学习的数据标注方法,其特征在于,所述通过初始标注数据集初始化预设标注模型之前,包括:
5.根据权利要求1所述的基于人在回路学习的数据标注方法,其特征在于,所述预设条件为预设相似度阈值,所述在更新后的所述预设标注模型满足预设条件或完成的标注样本数量达到预设数量阈值时,停止训练所述预设标注模型,并通过训练后的所述预设标注模型进行数据标注之前,包括:
6.根据权利要求1至5中任一项所述的基于人在回路学习的数据标注方法,其特征在于,所述在更新后的所述预设标注模型满足预设条件或完成的标注样本数量达到预设数量阈
7.一种基于人在回路学习的数据标注装置,其特征在于,包括:
8.根据权利要求7所述的基于人在回路学习的数据标注装置,其特征在于,所述标注内容生成模块包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至6中任一项所述的基于人在回路学习的数据标注方法。
...【技术特征摘要】
1.一种基于人在回路学习的数据标注方法,其特征在于,所述基于人在回路学习的数据标注方法包括:
2.根据权利要求1所述的基于人在回路学习的数据标注方法,其特征在于,所述通过初始化的所述预设标注模型对目标样本进行标注,生成所述目标样本对应的目标标注内容,包括:
3.根据权利要求2所述的基于人在回路学习的数据标注方法,其特征在于,所述预设公式为,其中m为所述未标注样本的个数,为一条未标注的样本。
4.根据权利要求1所述的基于人在回路学习的数据标注方法,其特征在于,所述通过初始标注数据集初始化预设标注模型之前,包括:
5.根据权利要求1所述的基于人在回路学习的数据标注方法,其特征在于,所述预设条件为预设相似度阈值,所述在更新后的所述预设标注模型满足预设条件或完成的标注样本数量达到预设数量阈值时,停止训练所述预设标注模型,并...
【专利技术属性】
技术研发人员:邓彪,
申请(专利权)人:北京中科凡语科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。