System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型的迭代式数据标注方法技术_技高网

基于大语言模型的迭代式数据标注方法技术

技术编号:41091792 阅读:4 留言:0更新日期:2024-04-25 13:51
本发明专利技术公开了基于大语言模型的迭代式数据标注方法,涉及人工智能的数据标注技术领域,该迭代式数据标注方法包括以下步骤:从待处理的事件中抽取标注任务得到待标注样本,并将待标注样本集成至大语言模型进行初步标注;将初步标注结果集成至大语言模型进行检查,并根据检查结果获得大语言模型对初步标注的纠正建议;根据纠正建议对初步标注结果进行纠正,并将纠正完成的标注结果集成至大语言模型内进行二次检查;大语言模型根据二次检查结果判定标注结果是否需要修改;采用投票策略判断大语言模型的标注结果的成功率。本发明专利技术兼顾手动标注的准确性和自动标注的低成本高效率。

【技术实现步骤摘要】

本专利技术涉及人工智能的数据标注,尤其涉及基于大语言模型的迭代式数据标注方法


技术介绍

1、目前,数据标注主要分为两个分支:手动数据标注与自动数据标注,而手动数据标注是通过人类标注者(或人类行业专家)检查数据集中的每个元素,并根据预先设计,为其标注适当的标签的技术。该技术较为常见,广泛应用于传统的机器学习项目中。例如图像处理领域广泛应用的imagenet数据集和自然语言处理领域广泛应用的glue基准数据集,前者经过十余年的积累,目前包含1500万张人类手动标注的图片,后者由众多知名大学联合创建,包括九种类型的人类标注数据。

2、自动数据标注方法通常使用机器学习算法自动进行数据标注,主要有半监督学习方法和弱监督学习方法两种类型。然而,由于自动数据标注准确性较低,在绝大多数时候需要结合人工修正,即让人类标注者对自动标注的数据进行审查和修改。半监督学习方法结合了有监督学习和无监督学习的优点,利用少数有标注数据和大量无标注数据进行训练,将训练后的系统用于数据标注。经典的半监督学习方法如斯坦福大学发表的论文《distantsupervision for relation extraction without labeled data》提出的关系抽取方法,该方法利用freebase数据库作为监督数据源,在大型未标注数据库中进行标注任务。

3、而弱监督学习主要利用非精确标注的数据进行学习,结合多个不完整、不精确、不一致的标注源来训练模型,将训练后的系统用于数据标注,即是使用一些已标注的数据来指导未标注数据的标注,减少了手动标注所需的人力和时间成本,适用于处理大规模数据集,广泛应用的弱监督学习方法如斯坦福大学提出的snorkel系统,利用多个数据来源进行综合,训练出一个标注模型来估算不同标注函数的准确度,使得来自不同数据源的标注结果之间彼此一致,而利用海量的未标注数据,可以构建大量虽然不精准但是规模足够大的机器标注数据集。

4、传统的手动标注方法由人类标注员一项一项地审查并标注数据,这种方法耗时且成本高昂,且由于标注人员的偏好不同,难以保持数据的一致性,同时,很多专业数据需要行业内的专家来进行标注,因此,很难将其应用于大规模数据集,缺乏可扩展性,同时目前存在的人类标注数据集通常只涉及一部分任务,对于近年来日益增加的新需求和新方向无能为力。

5、例如,imagenet数据集经过十余年的积累仅有千万量级的标注图片,而glue基准数据集涉及的文本句子数量则不超过百万条,imagenet的标注只有如“猫”、“狗”等类别,不包含更多的细节信息;而glue基准数据集只涵盖了九项常见的任务需求,不能实现更多的需求。

6、半监督学习则由于标注数据占少数,模型无法将较少的准确的已标注数据和大量的未标注数据做到很好的对齐。因此,模型会产生大量的错误标注,同时,每一步骤带来的误差会产生传播和积累,极大影响最终结果的精度。以论文《distant supervisionforrelation extractionwithout labeled data》提出的关系抽取方法为例,其在大规模数据集上的标注准确率仅为67.6%。

7、弱监督学习使用不精确的数据作为指示来标注大量未监督数据,并且可能存在多个彼此冲突或重叠的标注信号,会因为依赖不精确的标注而引入错误。snorkel系统标注的数据集同样面临着准确性问题。

8、因此,使用自动数据标注方法(包括半监督和弱监督学习方法)的用户囿于自动标注的准确性问题,通常会使用人工修正来完成质量的提高,即让人类标注者对机器标注的数据集进行逐个元素的检查与修正,这样虽然一定程度上提高了自动标注方法的准确率,但也引入了相当高昂的人工标注的时间和经济成本,同样无法适用于大规模的数据集。

9、综上所述,现有的数据标注方法中,手动标注方法的经济成本高、效率低,且受限于不同标注人员的个人偏见,很难扩展到大规模数据集;而自动标注方法的准确率和精度低,不能提供高质量的数据集,若在自动标注的阶段结束后加以人工检查修正,则同样成本高昂效率低下,难以扩展到大规模数据集。简而言之,目前数据标注技术的难题在于:如何以较低的经济和时间成本,标注出大规模数据集,同时保持较高的质量和准确率,因此,为了保证自动标注的效率和人工标注的质量需要探索更高效和更优秀的数据标注方法。

10、针对相关技术中的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本专利技术为了解决上述问题,提出了基于大语言模型的迭代式数据标注方法,实现数据标注自动化的目的。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、本专利技术提供了基于大语言模型的迭代式数据标注方法,该迭代式数据标注方法包括以下步骤:

4、s1、从待处理的事件中抽取标注任务得到待标注样本,并将待标注样本集成至大语言模型进行初步标注;

5、s2、将初步标注结果集成至大语言模型进行检查,并根据检查结果获得大语言模型对初步标注的纠正建议;

6、s3、根据纠正建议对初步标注结果进行纠正,并将纠正完成的标注结果集成至大语言模型内进行二次检查;

7、s4、大语言模型根据二次检查结果判定标注结果是否需要修改,若不需要修改则将标注结果定义为最终的数据标注结果,若需要修改则返回至步骤s2;

8、s5、采用投票策略判断大语言模型的标注结果的成功率,并根据成功率进行动态权重调整。

9、优选的,从待处理的事件中抽取标注任务得到待标注样本,并将待标注样本集成至大语言模型进行初步标注包括以下步骤:

10、s11、从待处理的事件文本中抽取标注任务,并根据标注任务定义事件类型和结构得到待标注样本;

11、s12、根据待标注样本获得标注任务需求与手动标注参考样例,并将手动标注参考样例预设为大模型学习参考样本;

12、s13、将任务需求与手动标注参考样例集成输入至大语言模型的提示词中;

13、s14、大模型根据提示词的输出结果确定待标注样本初始的自动标注结果;

14、s15、通过命名实体识别和关系提取算法从待标注样本中提取关键实体和关系,建立实体间的上下文模式;

15、s16、使用图网络理论将实体和关系映射到预定义的上下文框架中,以构建关系模型。

16、优选的,初始的自动标注结果的表达式为:

17、

18、式中,ai表示初始的自动标注结果,l表示大语言模型对于提示词的输出,t表示标注任务需求,sl表示手动标注参考样例,xi表示待标注样本,plabel表示集成化的提示词。

19、优选的,大模型根据提示词的输出结果确定待标注样本初始的自动标注结果包括以下步骤:

20、s141、大模型根据给定的提示词确定提示词与待标注样本之间的关系进行信息编码输入;

21、s142、利用注意力机制的权重与结果采样策略,从概率最高本文档来自技高网...

【技术保护点】

1.基于大语言模型的迭代式数据标注方法,其特征在于,该迭代式数据标注方法包括以下步骤:

2.根据权利要求1所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述从待处理的事件中抽取标注任务得到待标注样本,并将待标注样本集成至大语言模型进行初步标注包括以下步骤:

3.根据权利要求2所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述初始的自动标注结果的表达式为:

4.根据权利要求3所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述大模型根据提示词的输出结果确定待标注样本初始的自动标注结果包括以下步骤:

5.根据权利要求4所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述将初步标注结果集成至大语言模型进行检查,并根据检查结果获得大模型对初步标注的纠正建议包括以下步骤:

6.根据权利要求5所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述大模型获取检查结果类别并制定相对应的纠正建议包括以下步骤:

7.根据权利要求1所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述根据纠正建议对初步标注结果进行纠正,并将纠正完成的标注结果集成至大模型内进行二次检查包括以下步骤:

8.根据权利要求7所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述二次标注结果的表达式为:

9.根据权利要求1所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述采用投票策略判断大语言模型的标注结果的成功率,并根据成功率进行动态权重调整包括以下步骤:

10.根据权利要求9所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述强化学习算法的计算公式为:

...

【技术特征摘要】

1.基于大语言模型的迭代式数据标注方法,其特征在于,该迭代式数据标注方法包括以下步骤:

2.根据权利要求1所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述从待处理的事件中抽取标注任务得到待标注样本,并将待标注样本集成至大语言模型进行初步标注包括以下步骤:

3.根据权利要求2所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述初始的自动标注结果的表达式为:

4.根据权利要求3所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述大模型根据提示词的输出结果确定待标注样本初始的自动标注结果包括以下步骤:

5.根据权利要求4所述的基于大语言模型的迭代式数据标注方法,其特征在于,所述将初步标注结果集成至大语言模型进行检查,并根据检查结果获得大模型对初步标注的纠正建议包括以下步骤:...

【专利技术属性】
技术研发人员:周熠戴子杰宋建恒
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1