System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理,具体地,涉及一种数据标注模型的训练方法、数据标注方法以及对应装置。
技术介绍
1、在数据标注领域,通常由人工基于标注任务中的标注规则,对数据进行人工标注。但是不同标注员的业务水平参差不齐,尤其针对专业领域的标注任务,要求标注员具备该专业领域的知识。受不同标注员的业务水平的影响,不同标注员对同一数据的标注类别可能不同,并且也不能保证标注类别的准确率,且人工标注的效率低。
技术实现思路
1、提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、第一方面,本公开提供一种数据标注模型的训练方法,所述方法包括:
3、获取满足预设标注条件的样本数据,所述预设标注条件包括对标注任务对应的标注规则进行拆解得到的单一标注条件,所述样本数据对应有思维链信息,所述思维链信息用于指示所述样本数据是否属于所述标注任务对应的标注类别以及对应的原因;
4、根据所述标注类别和所述样本数据,确定所述样本数据对应的样本问题,并根据所述思维链信息,确定所述样本数据对应的样本答案;
5、根据所述样本问题和所述样本答案进行模型训练,得到目标数据标注模型,所述目标数据标注模型用于根据输入的、包括目标数据的问题,得到所述问题的答案,所述答案包括所述目标数据的类别信息以及所述类别信息对应的目标思维链信息
6、第二方面,本公开提供一种数据标注方法,所述方法包括:
7、获取包括目标数据的问题;
8、将所述问题输入目标数据标注模型,得到所述问题的答案,所述答案包括所述目标数据的类别信息以及所述类别信息对应的目标思维链信息,其中,所述目标数据标注模型是根据第一方面中任一项所述的数据标注模型的训练方法进行模型训练得到的;
9、根据所述类别信息对所述目标数据进行标注。
10、第三方面,本公开提供一种数据标注模型的训练装置,所述装置包括:
11、第一获取模块,用于获取满足预设标注条件的样本数据,所述预设标注条件包括对标注任务对应的标注规则进行拆解得到的单一标注条件,所述样本数据对应有思维链信息,所述思维链信息用于指示所述样本数据是否属于所述标注任务对应的标注类别以及对应的原因;
12、第一确定模块,用于根据所述标注类别和所述样本数据,确定所述样本数据对应的样本问题,并根据所述思维链信息,确定所述样本数据对应的样本答案;
13、训练模块,用于根据所述样本问题和所述样本答案进行模型训练,得到目标数据标注模型,所述目标数据标注模型用于根据输入的、包括目标数据的问题,得到所述问题的答案,所述答案包括所述目标数据的类别信息以及所述类别信息对应的目标思维链信息。
14、第四方面,本公开提供一种数据标注装置,所述装置包括:
15、第二获取模块,用于获取包括目标数据的问题;
16、输入模块,用于将所述问题输入目标数据标注模型,得到所述问题的答案,所述答案包括所述目标数据的类别信息以及所述类别信息对应的目标思维链信息,其中,所述目标数据标注模型是根据第三方面所述的数据标注模型的训练装置进行模型训练得到的;
17、标注模块,用于根据所述类别信息对所述目标数据进行标注。
18、第五方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面或第二方面中任一项所述方法的步骤。
19、第六方面,本公开提供一种电子设备,包括:
20、存储装置,其上存储有计算机程序;
21、处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面或第二方面中任一项所述方法的步骤。
22、通过上述技术方案,将标注任务对应的标注规则拆解成单一标注条件,可以便于模型理解和学习标注流程,提高模型训练的效率。后续通过数据标注模型进行数据标注,不受标注员的业务水平的影响,不存在同一数据的标注类别不一致的问题,准确率和效率高于人工标注。此外,通过类别信息对应的目标思维链信息,使得用户可以清楚地了解确定类别信息的原因。
23、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
本文档来自技高网...【技术保护点】
1.一种数据标注模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取满足预设标注条件的样本数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述豁免条件包括以下至少一种条件:
4.根据权利要求1所述的方法,其特征在于,所述获取满足预设标注条件的样本数据,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述单一标注条件是通过如下方式得到的:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述样本数据对应的思维链信息是通过如下至少一种方式确定的:
7.根据权利要求1-4任一项所述的方法,其特征在于,所述目标数据标注模型包括以下至少一者:文生文模型、文生图模型、图生文模型、图文多模态模型、视频文本多模态模型。
8.一种数据标注方法,其特征在于,所述方法包括:
9.一种数据标注模型的训练装置,其特征在于,所述装置包括:
10.一种数据标注装置,其特征在于,所述装置包括:
11.一种计算机可读介质,其上存储
12.一种电子设备,其特征在于,包括:
...【技术特征摘要】
1.一种数据标注模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取满足预设标注条件的样本数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述豁免条件包括以下至少一种条件:
4.根据权利要求1所述的方法,其特征在于,所述获取满足预设标注条件的样本数据,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述单一标注条件是通过如下方式得到的:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述样本数据对应的思维链信息是通过如下至少一种方式确定...
【专利技术属性】
技术研发人员:马玉昆,卜英桐,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。