一种利用大模型与协同训练进行数据增强的方法技术

技术编号：40117278 阅读：5 留言：0更新日期：2024-01-23 20:06

本发明专利技术公开了一种利用大模型与协同训练进行数据增强的方法，包括以下步骤：S1.准备初始提示词；S2.输入待识别文本；S3.结合三元组将提示样本转化为完整的提示样本；S4.将待识别文本和提示样本输入给大模型进行推理，生成实体关系的三元组信息；S5.对大模型输出的三元组进行评估，包括：S6.根据评估值判断识别正确与否，并根据结果更新提示准确率；S7.若评估值小于等于设定阈值，则重新触发动态提示词层挑选提示样本，并重新执行上述步骤；S8.将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。通过数据循环反馈与知识图谱构建，能够有效提高分类算法的生成能力和适应性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，具体为一种利用大模型与协同训练进行数据增强的方法。

技术介绍

1、众所周知，标注数据的“质量”对于有监督算法来说是至关重要的。但既要保质又要保量对于标注工作来说提出了很大挑战。在减少标注工作量的工作中，基于主动学习（activate learning）的做法往往针对于对“质”的保证，并且大部分方法停留在发现有价值的数据，但标注依然需要靠人力完成。而近两年开始日益成熟的生成式语言模型，如gpt-4等，在提示工程的加持下可以轻易生成大量标注数据，但生成的数据虽然保了“量”，但由于句式单一，无法做到差异化数据。

技术实现思路

1、本专利技术的目的在于提供一种利用大模型与协同训练进行数据增强的方法，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种利用大模型与协同训练进行数据增强的方法，包括以下步骤：

3、s1.准备初始提示词；

4、s2.输入待识别文本，并通过相似度计算选择与待识别文本相似度高的原始文本样本作为提示样本；

5、s3.结合三元组将提示样本转化为完整的提示样本；

6、s4.将待识别文本和提示样本输入给大模型进行推理，生成实体关系的三元组信息；

7、s5.对大模型输出的三元组进行评估，包括：

8、a.将三元组转化为句子，并提取句子的向量特征；

9、b.计算复原相似度，即将该句子与对应三元组的原始句子进行向量比对得到的相似度；

10、c.利用三元组中的两个实体在已收集数据中进行检索，并计算实体召回率；

11、d.综合复原相似度和实体召回率进行加权平均得到评估值；

12、s6.根据评估值判断识别正确与否，并根据结果更新提示准确率；

13、s7.若评估值小于等于设定阈值，则重新触发动态提示词层挑选提示样本，并重新执行上述步骤；

14、s8.将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。

15、优选的，所述动态提示词层的选择和优化是通过计算当前待识别文本与已正确识别三元组对应原始句子的相似度，并召回与待识别文本相似度高于设定阈值的文本实现的。

16、优选的，在每次执行流程时，将已识别的三元组收集起来，一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。

17、优选的，在执行流程时，若同一待识别文本被识别超过三次，将其标记为问题文本，需要交由人工处理。

18、优选的，s2中，通过相似度计算选择与待识别文本相似度高的原始文本样本作为提示样本，具体包括以下步骤：

19、s21.预处理待识别文本：对待识别文本进行预处理；

20、s22.候选样本选择：从大规模的原始文本样本库中，选取一部分候选样本；

21、s23. 文本表示学习：采用词嵌入、句向量或基于transformer的模型对待识别文本和候选样本进行表示学习，通过将文本映射到低维向量表示，捕捉语义信息和语境相关性；

22、s24.相似度计算：利用余弦相似度、欧氏距离或基于注意力机制的相似度计算方法在文本表示空间中计算待识别文本与候选样本之间的相似度分数；

23、s25.提示样本选择：根据相似度分数，按照设定的阈值或选择前k个最相似样本的方式，选取与待识别文本相似度较高的原始文本样本作为提示样本。

24、优选的，s3中，结合三元组将提示样本转化为完整的提示样本，具体包括以下步骤：

25、s31.提示样本处理：对选择得到的原始文本样本进行处理和解析，从中提取出与识别目标相关的实体和关系信息；

26、s32.三元组抽取：根据所提取的实体和关系信息，构建三元组；

27、s33.数据清洗和规范化：对生成的三元组进行数据清洗和规范化的操作，包括去除重复的三元组、标准化实体和关系名称，保证生成数据的质量和一致性；

28、s34.合并提示样本和待识别文本：将经过处理和规范化的三元组与待识别文本进行合并，形成完整的提示样本；

29、s35.将完整的提示样本输入给大模型进行推理：利用大模型对合并后的提示样本进行推理，从中提取出与文本相关的实体和关联关系的信息。

30、优选的，s4中，将待识别文本和提示样本输入给大模型进行推理，生成实体关系的三元组信息，具体包括以下步骤：

31、s41.模型选择和预训练：选择适合任务需求的大模型，并通过使用大规模数据集进行预训练，使得模型能够掌握丰富的语义和句子结构信息；

32、s42.输入编码和注意力机制：对待识别文本和提示样本进行编码，得到它们在模型中的表示；

33、s43.推理过程：将编码后的待识别文本和提示样本输入到大模型中，触发推理过程，模型会根据已学习到的语义知识和上下文信息，生成实体关系的三元组信息；

34、s44.三元组筛选和整理：从大模型的输出中提取实体关系的三元组信息，同时，对生成的三元组进行筛选和整理，去除无关或不准确的信息，保留有意义的实体关系；

35、s45. 完善三元组信息：对提取的三元组信息进行完善，通过结合已有知识库、领域专家或其他外部资源，进行补充和修正，使得三元组信息更加准确和完整。

36、优选的，s8中，将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源，具体包括以下步骤：

37、s81.知识图谱构建：将成功识别的三元组数据整合和存储，构建知识图谱；

38、s82.知识图谱扩充：利用成功识别的三元组数据不断扩充知识图谱；

39、s83. 知识图谱应用：利用构建和扩充后的知识图谱，进行各种应用；

40、s84. 动态提示词层更新：利用成功识别的三元组数据作为动态提示词层的数据源，在实际应用中持续地更新和优化动态提示词的选择。

41、本专利技术提出的一种利用大模型与协同训练进行数据增强的方法，有益效果在于：

42、1、在以往采用协同训练做数据增强的方式中，协同训练主要用于挖掘比较有价值的数据从而减少标注量，然而其并不能直接产生标注数据，使得减少人工标注的程度有限，而本专利技术在大模型的加持下，可以直接生成标注数据。

43、2、相比于直接使用大模型生成标注数据，本专利技术采用了分类模型与大语言模型的对抗机制以保证生成数据的质量，使得数据增强效果更加高效。

44、综上所述，本流程通过利用大模型进行动态提示和推理，基于评估机制对生成数据进行处理，并通过数据循环反馈与知识图谱构建，能够有效提高分类算法的生成能力和适应性，解决在新场景迁移时的标注压力问题。

本文档来自技高网...

【技术保护点】

1.一种利用大模型与协同训练进行数据增强的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：所述动态提示词层的选择和优化是通过计算当前待识别文本与已正确识别三元组对应原始句子的相似度，并召回与待识别文本相似度高于设定阈值的文本实现的。

3.根据权利要求2所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：在每次执行流程时，将已识别的三元组收集起来，一方面用于构建知识图谱，另一方面作为动态提示词层的数据源。

4.根据权利要求3所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：在执行流程时，若同一待识别文本被识别超过三次，将其标记为问题文本，需要交由人工处理。

5.根据权利要求4所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：S2中，通过相似度计算选择与待识别文本相似度高的原始文本样本作为提示样本，具体包括以下步骤：

6.根据权利要求5所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：S3中，结合三元组将提示样本转

7.根据权利要求6所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：S4中，将待识别文本和提示样本输入给大模型进行推理，生成实体关系的三元组信息，具体包括以下步骤：

8.根据权利要求7所述的一种利用大模型与协同训练进行数据增强的方法，其特征在于：S8中，将成功识别的三元组数据一方面用于构建知识图谱，另一方面作为动态提示词层的数据源，具体包括以下步骤：

...

【技术特征摘要】

1.一种利用大模型与协同训练进行数据增强的方法，其特征在于，包括以下步骤：

5.根据权利要...

【专利技术属性】
技术研发人员：谢铁，褚哲，刘培彬，
申请(专利权)人：苏州新歌科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人