System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据标注方法、设备及存储介质技术_技高网

一种数据标注方法、设备及存储介质技术

技术编号:40426137 阅读:5 留言:0更新日期:2024-02-20 22:46
本申请公开一种数据标注方法、设备及存储介质,涉及数据处理技术领域。本申请的方法包括:当获取到待标注数据时,基于所述待标注数据的数据来源确定任务配置信息,根据所述任务配置信息确定标注模型,所述标注模型是基于大语言模型训练得到的机器学习模型;基于所述待标注数据和所述标注模型获得模型输出结果;基于所述模型输出结果确定标注结果。本申请实现了一种不需要依赖人工数据标注就可以解决冷启动问题的基于机器学习模型的数据标注方法,可以极大提高标注模型的开发效率;以及通过任务配置信息可以满足对不同数据打不同标签的差异化需求管理,具有更好的灵活性和通用性。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种数据标注方法、设备及存储介质


技术介绍

1、在互联网时代,用户在平台方生成内容数据,平台方通过对内容的理解,会将内容个性化的分发给其他用户,比如微博、头条、抖音、爱奇艺、快手等互联网平台。内容标签是内容理解的主要方式,它的优点是结构化、可解释性好,一般可以构建多个层级的内容标签覆盖较大范围的内容。数据标注系统就是可以将用户生成的内容数据通过标注的方式打上内容标签的平台,由此可见,对于数据标注方法的研究具有重要价值。

2、现有技术中的数据标注系统,在新的标注任务产生时由于缺乏训练样本,无法直接使用机器学习模型进行数据标注,往往需要通过人工标注一段时间来收集样本数据来完成对机器学习模型的训练,这就是现有数据标注系统存在的冷启动问题,而人工标注数据的收集是个逐渐缓慢的过程,当机器学习模型的效果依赖人工标注数据量的时候,意味着数据标注系统效果的提升也会非常缓慢,但反过来,人工标注的效果可能还行,但是效率极低,如果都通过人工进行数据标注,往往是不可持续的。

3、因此,如何提升机器学习模型的数据标注效果是亟待解决的问题。


技术实现思路

1、为了克服上述缺陷,本申请提出的数据标注方法可以解决人工数据标注效率低和机器学习模型数据标注效果提升缓慢的问题。

2、在第一方面,本申请提供一种数据标注方法,所述方法包括:

3、当获取到待标注数据时,基于所述待标注数据的数据来源确定任务配置信息,根据所述任务配置信息确定标注模型,所述标注模型是基于大语言模型训练得到的机器学习模型;基于所述待标注数据和所述标注模型获得模型输出结果;基于所述模型输出结果确定标注结果。

4、优选地,所述基于所述模型输出结果确定标注结果具体为:基于所述模型输出结果判断所述机器学习模型是否已完成训练,并根据判断结果确定标注结果。

5、进一步地,所述根据判断结果确定标注结果具体为,若判断结果是未完成训练则基于所述模型输出结果获取与之对应的人工校验结果,并将所述人工校验结果确定为所述标注结果;否则将所述模型输出结果确定为所述标注结果。进一步地,当获取到所述人工校验结果时还包括:将所述人工校验结果反馈至所述大语言模型,并基于所述大语言模型迭代训练所述机器学习模型。所述基于所述大语言模型迭代训练所述机器学习模型具体为:通过对所述大语言模型进行模型压缩迭代训练所述机器学习模型。

6、优选地,所述基于所述模型输出结果判断所述机器学习模型是否已完成训练具体包括:基于所述模型输出结果对所述机器学习模型进行评估得到评估结果;基于所述评估结果判断所述机器学习模型是否已完成训练。

7、进一步地,所述基于所述模型输出结果对所述机器学习模型进行评估得到评估结果具体为:基于ab实验对所述机器学习模型输出的所述模型输出结果进行评估得到评估结果;所述基于所述评估结果判断所述机器学习模型是否已完成训练具体为:判断所述评估结果是否达到预设指标值,是则评估为已完成训练,否则评估为未完成训练。

8、优选地,所述方法还包括初始化配置开关的状态为打开状态,当基于所述模型输出结果判断所述机器学习模型是已完成训练时,还包括将所述配置开关的状态更改为关闭状态。

9、进一步地,当获取到待标注数据且所述配置开关的状态是打开状态时,所述基于所述待标注数据和所述标注模型获得模型输出结果具体为:基于所述大语言模型对所述待标注数据进行标注获得初始标注数据,基于所述初始标注数据训练所述机器学习模型以输出得到所述模型输出结果;当获取到待标注数据且所述配置开关的状态为关闭状态时,所述基于所述待标注数据和所述标注模型获得模型输出结果具体为:基于所述待标注数据和已完成训练的所述机器学习模型以输出得到模型输出结果。

10、优选地,所述任务配置信息包括数据源配置信息和标签源配置信息;所述数据源配置信息至少包括数据来源和内容组合类型;所述标签源配置信息至少包括标签元素;

11、所述基于所述待标注数据的数据来源确定任务配置信息具体为:根据所述待标注数据的数据来源和所述数据源配置信息中包含的数据来源确定与所述待标注数据相匹配的任务配置信息;

12、所述标注模型包括至少一个机器学习模型,所述根据所述任务配置信息确定标注模型具体为:根据所述内容组合类型确定与之对应的机器学习模型。

13、进一步地,当所述待标注数据的数据来源与所述数据源配置信息中包含的数据来源无法匹配时,所述方法还包括基于所述待标注数据创建任务配置信息。

14、进一步地,所述数据源配置信息还包括内容元素,所述内容元素从模态维度划分至少包括文本、图片、视频、音频和用户行为序列;所述内容组合类型包括单模态单元素类型、单模态多元素类型、多模态单元素类型和多模态多元素类型;所述标签元素被划分为至少一个层级,且每一层级的所述标签元素从标签维度划分至少包括关键词标签、实体标签和主题标签。

15、在第二方面,本申请提供一种计算机设备,该计算机设备包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述数据标注方法的技术方案中任一项技术方案所述的数据标注方法。

16、在第三方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述数据标注方法的技术方案中任一项技术方案所述的数据标注方法。

17、本申请上述一个或多个技术方案,至少具有如下一种或多种有益效果:

18、在实施本申请的技术方案中,当获取到待标注数据时,基于所述待标注数据的数据来源确定任务配置信息,根据所述任务配置信息确定标注模型,所述标注模型是基于大语言模型训练得到的机器学习模型;基于所述待标注数据和所述标注模型获得模型输出结果,基于所述模型输出结果确定标注结果,由此实现了一种不需要依赖人工数据标注就可以解决冷启动问题的基于机器学习模型的数据标注方法,可以极大提高标注模型的开发效率;以及通过任务配置信息可以满足对不同数据打不同标签的差异化需求管理,具有更好的灵活性和通用性。

19、在实施本申请的技术方案中,所述标注模型利用所述大语言模型获得初始标注数据,解决了采用标注模型进行数据标注的冷启动问题,不需要依赖人工标注数据获得样本数据;每进行一次数据标注可完成一次基于所述大语言模型对所述机器学习模型的迭代训练,从而不断提升标注模型的效果。以及通过对机器学习模型的模型输出结果进行评估来判别是否已完成训练,并基于判断结果通过设置配置开关实现数据标注系统的半自动化到全自动化的转换。

本文档来自技高网...

【技术保护点】

1.一种数据标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述模型输出结果确定标注结果具体为:基于所述模型输出结果判断所述机器学习模型是否已完成训练,并根据判断结果确定标注结果。

3.根据权利要求2所述的方法,其特征在于,所述根据判断结果确定标注结果具体为,若判断结果是未完成训练则基于所述模型输出结果获取与之对应的人工校验结果,并将所述人工校验结果确定为所述标注结果;否则将所述模型输出结果确定为所述标注结果。

4.根据权利要求3所述的方法,其特征在于,当获取到所述人工校验结果时还包括:将所述人工校验结果反馈至所述大语言模型,并基于所述大语言模型迭代训练所述机器学习模型。

5.根据权利要求4所述的方法,其特征在于,所述基于所述大语言模型迭代训练所述机器学习模型具体为:通过对所述大语言模型进行模型压缩迭代训练所述机器学习模型。

6.根据权利要求2所述的方法,其特征在于,所述基于所述模型输出结果判断所述机器学习模型是否已完成训练具体包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述模型输出结果对所述机器学习模型进行评估得到评估结果具体为:基于AB实验对所述机器学习模型输出的所述模型输出结果进行评估得到评估结果;

8.根据权利要求2所述的方法,其特征在于,所述方法还包括初始化配置开关的状态为打开状态,当基于所述模型输出结果判断所述机器学习模型是已完成训练时,还包括将所述配置开关的状态更改为关闭状态。

9.根据权利要求8所述的方法,其特征在于,当获取到待标注数据且所述配置开关的状态是打开状态时,所述基于所述待标注数据和所述标注模型获得模型输出结果具体为:基于所述大语言模型对所述待标注数据进行标注获得初始标注数据,基于所述初始标注数据训练所述机器学习模型以输出得到所述模型输出结果;

10.根据权利要求1所述的方法,其特征在于,所述任务配置信息包括数据源配置信息和标签源配置信息;所述数据源配置信息至少包括数据来源和内容组合类型;所述标签源配置信息至少包括标签元素;

...

【技术特征摘要】

1.一种数据标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述模型输出结果确定标注结果具体为:基于所述模型输出结果判断所述机器学习模型是否已完成训练,并根据判断结果确定标注结果。

3.根据权利要求2所述的方法,其特征在于,所述根据判断结果确定标注结果具体为,若判断结果是未完成训练则基于所述模型输出结果获取与之对应的人工校验结果,并将所述人工校验结果确定为所述标注结果;否则将所述模型输出结果确定为所述标注结果。

4.根据权利要求3所述的方法,其特征在于,当获取到所述人工校验结果时还包括:将所述人工校验结果反馈至所述大语言模型,并基于所述大语言模型迭代训练所述机器学习模型。

5.根据权利要求4所述的方法,其特征在于,所述基于所述大语言模型迭代训练所述机器学习模型具体为:通过对所述大语言模型进行模型压缩迭代训练所述机器学习模型。

6.根据权利要求2所述的方法,其特征在于,所述基于所述模型输出结果判断所述机器学习模...

【专利技术属性】
技术研发人员:后士浩黄俊超潘鹏举
申请(专利权)人:蔚来汽车科技安徽有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1