System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种指令微调数据的生成方法、设备和存储介质技术_技高网

一种指令微调数据的生成方法、设备和存储介质技术

技术编号:40802527 阅读:4 留言:0更新日期:2024-03-28 19:27
本发明专利技术属于自然语言处理技术领域,涉及一种指令微调数据生成方法、设备和存储介质,所述方法包括:1)、获取第一知识库;2)、将第一知识库按固定长度切分成多个子文本块,并将其依次输入大语言模型中,以生成多个知识概念;3)、将知识概念和预设相关背景知识输入大语言模型中,以生成第一指令微调数据;4)、判断第二指令微调数据的数量是否大于第二指令微调数据的总量的平均值,如果大于,则返回步骤3),否则,进入步骤5);5)、对第一指令微调数据进行处理,处理后得到第二指令微调数据并将其作为该知识概念的指令微调数据。其是结合知识概念反馈机制和大语言模型的指令微调数据生成方法,能够提高指令微调数据的构建效率。

【技术实现步骤摘要】

本专利技术属于自然语言处理,涉及一种指令微调数据的生成方法、设备和存储介质,尤其是一种结合知识概念反馈机制和大语言模型的指令微调数据的生成方法、设备和存储介质。


技术介绍

1、随着人工智能、大数据技术的飞速发展,以大语言模型为代表的新一代人工智能技术带来了革命性的突破,大语言模型已经在各种应用中显示出卓越的性能。

2、然而,大语言模型的训练需要大量高质量的训练数据,尤其是指令微调数据。这些指令微调数据往往需要依赖人工标注,成本非常高。如何自动化构建高质量指令微调数据是一个意义重大的研究方向。为此,有很多人开始研究指令微调数据的生成方法。

3、例如,申请号为202310827694.5的中国专利技术专利提出了一种指令微调数据的生成方法,其具体步骤如下:s1、获取第一知识库和第一预设数量的种子任务;s2、生成提示信息,所述提示信息包括:所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求;s3、根据所述提示信息和预设大语言模型,得到第一指令微调数据;s4、对所述第一指令微调数据进行处理,得到第二指令微调数据。该生成方法通过引入知识库数据,提高了生成指令微调数据的质量,降低了噪音数据生成的概率。但是,上述的指令微调数据生成方法会继承大语言模型的偏好性特点,即偏向于出现频率高的词,因此生成的数据分布不均衡,在常见的微调指令上效果不错,但在长尾样本上效果受到限制。

4、因此,针对上述现有技术所存在的缺陷,急需研究一种新型的指令微调数据生成方法。


技术实现思路>

1、针对现有技术方案的缺点,本专利技术提出了一种结合知识概念反馈机制和大语言模型的指令微调数据生成方法,应用于大语言模型指令微调,提高了指令微调数据的构建效率。

2、为了实现上述目的,本专利技术提供如下技术方案:

3、一种指令微调数据生成方法,其特征在于,包括以下步骤:

4、1)、获取第一知识库;

5、2)、将所述第一知识库按固定长度切分成多个子文本块,并将所述多个子文本块依次输入大语言模型中,以分别生成多个知识概念;

6、3)、将其中一个所述知识概念和预设相关背景知识分别输入大语言模型中,以生成该知识概念对应的第一指令微调数据;

7、4)、判断该知识概念对应的第二指令微调数据的数量是否大于所有知识概念对应的第二指令微调数据的数量的平均值,如果大于平均值,则返回步骤3),如果不大于平均值,则进入步骤5);

8、5)、对该知识概念对应的第一指令微调数据进行处理,处理后得到该知识概念对应的第二指令微调数据并将所述第二指令微调数据作为该知识概念的指令微调数据。

9、优选地,所述步骤2)中的大语言模型是经过预先微调训练后的大语言模型。

10、优选地,微调训练包括以下步骤:

11、创建知识概念提取训练数据集;

12、使用所述知识概念提取训练数据集对大语言模型进行微调训练。

13、优选地,微调训练方法为全参数微调方法、lora微调方法或prefix tuning微调方法。

14、优选地,所述步骤3)中的预设相关背景知识从预先准备的数据库中获取,所述数据库中存储了指令微调数据生成所涉及的原始资料,使用检索方式从所述数据库中召回与所述知识概念相关的文本片段作为所述预设相关背景知识。

15、优选地,所述步骤4)中判断该知识概念对应的第二指令微调数据的数量是否大于所有知识概念对应的第二指令微调数据的数量的平均值具体为:获取该知识概念对应的第二指令微调数据的数量n-kc、知识概念的类型的数量m,以及所有知识概念对应的第二指令微调数据的数量n,判断n-kc是否大于n/m。

16、优选地,所述步骤5)中,得到第二指令微调数据后,更新该知识概念对应的第二指令微调数据的数量n-kc,知识概念的类型的数量m,以及所有知识概念对应的第二指令微调数据的数量n。

17、优选地,所述大语言模型为chatglm、chatgpt或gpt-4。

18、此外,本专利技术还提供一种指令微调数据的生成设备,其特征在于,包括:

19、一个或多个处理器;

20、存储器,用于存储一个或多个程序;

21、当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述的指令微调数据生成方法。

22、最后,本专利技术还一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述指令微调数据生成方法中的步骤。

23、与现有技术相比,本专利技术的指令微调数据的生成方法、设备和存储介质具有如下有益技术效果中的一者或多者:

24、1、本专利技术通过引入知识概念反馈机制,解决了基于大语言模型自动生成指令微调数据的方法存在的数据分布不均衡的问题,从而提升了自动化构建指令微调数据的整体质量。

25、2、本专利技术首先对大语言模型进行知识概念提取任务微调,使语言大模型能够基于给定的文本提取出知识概念,然后基于提取出的知识概念及相关文本,使大语言模型自动化生成知识概念对应的指令微调数据,在生成过程中,根据各个知识概念对应的指令微调数据量进行数据分布反馈,从而引导大语言模型生成的数据分布均衡性更好。

本文档来自技高网...

【技术保护点】

1.一种指令微调数据生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的指令微调数据生成方法,其特征在于,所述步骤2)中的大语言模型是经过预先微调训练后的大语言模型。

3.根据权利要求2所述的指令微调数据生成方法,其特征在于,微调训练包括以下步骤:

4.根据权利要求3所述的指令微调数据生成方法,其特征在于,微调训练方法为全参数微调方法、LoRA微调方法或Prefix Tuning微调方法。

5.根据权利要求4所述的指令微调数据生成方法,其特征在于,所述步骤3)中的预设相关背景知识从预先准备的数据库中获取,所述数据库中存储了指令微调数据生成所涉及的原始资料,使用检索方式从所述数据库中召回与所述知识概念相关的文本片段作为所述预设相关背景知识。

6.根据权利要求5所述的指令微调数据生成方法,其特征在于,所述步骤4)中判断该知识概念对应的第二指令微调数据的数量是否大于所有知识概念对应的第二指令微调数据的数量的平均值具体为:获取该知识概念对应的第二指令微调数据的数量N-KC、知识概念的类型的数量M,以及所有知识概念对应的第二指令微调数据的数量N,判断N-KC是否大于N/M。

7.根据权利要求6所述的指令微调数据生成方法,其特征在于,所述步骤5)中,得到第二指令微调数据后,更新该知识概念对应的第二指令微调数据的数量N-KC,知识概念的类型的数量M,以及所有知识概念对应的第二指令微调数据的数量N。

8.根据权利要求7所述的指令微调数据生成方法,其特征在于,所述大语言模型为ChatGLM、ChatGPT或GPT-4。

9.一种指令微调数据的生成设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的指令微调数据生成方法中的步骤。

...

【技术特征摘要】

1.一种指令微调数据生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的指令微调数据生成方法,其特征在于,所述步骤2)中的大语言模型是经过预先微调训练后的大语言模型。

3.根据权利要求2所述的指令微调数据生成方法,其特征在于,微调训练包括以下步骤:

4.根据权利要求3所述的指令微调数据生成方法,其特征在于,微调训练方法为全参数微调方法、lora微调方法或prefix tuning微调方法。

5.根据权利要求4所述的指令微调数据生成方法,其特征在于,所述步骤3)中的预设相关背景知识从预先准备的数据库中获取,所述数据库中存储了指令微调数据生成所涉及的原始资料,使用检索方式从所述数据库中召回与所述知识概念相关的文本片段作为所述预设相关背景知识。

6.根据权利要求5所述的指令微调数据生成方法,其特征在于,所述步骤4)中判断该知识概念对应的第二指令微调...

【专利技术属性】
技术研发人员:刘海波任星宇王仿
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1