大语言模型的训练方法、装置、设备和介质制造方法及图纸

技术编号:39006923 阅读:22 留言:0更新日期:2023-10-07 10:38
本公开提供了一种大语言模型的训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及自然语言处理和深度学习等技术领域。该方法包括:获取大规模无监督文本数据;从大规模问答数据中提取多个问题答案对;基于多个问题答案对,构建弱监督指令数据,包括:针对多个问题答案对中的每一个问题答案对,将该问题答案对中的问题作为样本指令,并将该问题答案对中的答案作为与样本指令对应的真值回复数据,构建与该问题答案对对应的指令训练样本;以及基于与多个问题答案对各自对应的指令训练样本,构建弱监督指令数据;以及利用包括大规模无监督文本数据和弱监督指令数据的混合训练数据,对大语言模型进行预训练。对大语言模型进行预训练。对大语言模型进行预训练。

【技术实现步骤摘要】
大语言模型的训练方法、装置、设备和介质


[0001]本公开涉及人工智能
,尤其涉及自然语言处理和深度学习等
,具体涉及一种大语言模型的训练方法、大语言模型的训练装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括自然语言处理技术、计算机视觉技术、语音识别技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种大语言模型的训练方法、大语言模型的训练装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种大语言模型的训练方法,包括:获取大规模无监督文本数据;从大规模问答数据中提取多个问题答案对,多个问题答案对中的每一个问题答案对包括对应的问题文本和答案文本;基于多个问题答案对,构建弱监督指令数据,包括:针对多个问题答案对中的每一个问题答案对,将该问题答案对中的问题文本作为样本指令,并将该问题答案对中的答案文本作为与样本指令对应的真值回复数据,构建与该问题答案对对应的指令训练样本;以及基于与多个问题答案对各自对应的指令训练样本,构建弱监督指令数据;以及利用包括大规模无监督文本数据和弱监督指令数据的混合训练数据,对大语言模型进行预训练。
[0006]根据本公开的另一方面,提供了一种大语言模型的训练装置,包括:获取单元,被配置为,获取大规模无监督文本数据;提取单元,被配置为从大规模问答数据中提取多个问题答案对,多个问题答案对中的每一个问题答案对包括对应的问题文本和答案文本;构建单元,被配置为基于多个问题答案对,构建弱监督指令数据,构建单元包括:第一构建子单元,被配置为针对多个问题答案对中的每一个问题答案对,将该问题答案对中的问题文本作为样本指令,并将该问题答案对中的答案文本作为与样本指令对应的真值回复数据,构建与该问题答案对对应的指令训练样本;以及第二构建子单元,被配置为基于与多个问题答案对各自对应的指令训练样本,构建弱监督指令数据;以及预训练单元,被配置为利用包括大规模无监督文本数据和弱监督指令数据的混合训练数据,对大语言模型进行预训练。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至
少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
[0010]根据本公开的一个或多个实施例,通过利用从大规模问答数据中提出当的问题答案对构建弱监督指令数据,能够在不引入额外人力的情况下,低成本地构造出大量指令数据,完成了大语言模型的指令理解能力强化,丰富了大语言模型指令理解能力增强的手段。此外,由于通过上述方法能够构造出大规模的弱监督指令数据,因此可以在预训练阶段使用这些指令数据。通过在预训练阶段将该数据与大规模无监督文本数据混合,并利用混合训练数据对大语言模型进行预训练,使得能够在保证大语言模型的基本语言能力的情况下,显著提升经预训练的大语言模型的指令理解能力,进而可以在此基础上进行微调以得到具有较强的指令理解能力并且能够用于处理各类任务的大语言模型。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0013]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0014]图2示出了根据本公开的实施例的大语言模型的训练方法的流程图;
[0015]图3示出了根据本公开的实施例的利用混合训练数据对大语言模型进行预训练的流程图;
[0016]图4示出了根据本公开的实施例的大语言模型的训练方法的流程图;
[0017]图5示出了根据本公开的实施例的大语言模型的训练装置的结构框图;以及
[0018]图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0019]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0020]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0021]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0022]相关技术中,预训练大语言模型的指令理解能力通常较弱。
[0023]为解决上述问题,通过利用从大规模问答数据中提出当的问题答案对构建弱监督指令数据,能够在不引入额外人力的情况下,低成本地构造出大量指令数据,完成了大语言模型的指令理解能力强化,丰富了大语言模型指令理解能力增强的手段。此外,由于通过上述方法能够构造出大规模的弱监督指令数据,因此可以在预训练阶段使用这些指令数据。通过在预训练阶段将该数据与大规模无监督文本数据混合,并利用混合训练数据对大语言模型进行预训练,使得能够在保证大语言模型的基本语言能力的情况下,显著提升经预训练的大语言模型的指令理解能力,进而可以在此基础上进行微调以得到具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大语言模型的训练方法,包括:获取大规模无监督文本数据;从大规模问答数据中提取多个问题答案对,所述多个问题答案对中的每一个问题答案对包括对应的问题文本和答案文本;基于所述多个问题答案对,构建弱监督指令数据,包括:针对所述多个问题答案对中的每一个问题答案对,将该问题答案对中的问题文本作为样本指令,并将该问题答案对中的答案文本作为与所述样本指令对应的真值回复数据,构建与该问题答案对对应的指令训练样本;以及基于与所述多个问题答案对各自对应的指令训练样本,构建所述弱监督指令数据;以及利用包括所述大规模无监督文本数据和所述弱监督指令数据的混合训练数据,对大语言模型进行预训练。2.根据权利要求1所述的方法,其中,利用包括所述大规模无监督文本数据和所述弱监督指令数据的混合训练数据,对大语言模型进行预训练包括:基于递增的学习率,利用所述混合训练数据对所述大语言模型进行预设训练步数的预训练,以得到中间大语言模型;以及基于递减的学习率,利用所述混合训练数据对所述中间大语言模型进行预训练。3.根据权利要求2所述的方法,其中,所述预设训练步数的预训练中的每一步所使用的混合训练数据中的弱监督指令数据的比例是基于当前训练步数和所述预设训练步数而确定的。4.根据权利要求3所述的方法,其中,所述弱监督指令数据的比例与所述当前训练步数和所述预设训练步数的比值呈正相关。5.根据权利要求4所述的方法,其中,所述弱监督指令数据的比例等于第一值和第二值的和,所述第一值等于所述当前训练步数和所述预设训练步数的比值与预设的基准训练比例的乘积,所述第二值为预设的最小训练比例。6.根据权利要求1

5中任一项所述的方法,还包括:利用所述大规模无监督文本数据对初始大语言模型进行预训练,以得到所述大语言模型。7.根据权利要求1

5中任一项所述的方法,还包括:利用人工指令监督数据对预训练后的大语言模型进行监督微调,以得到经训练的大语言模型,所述经训练的大语言模型用于基于用户的输入指令生成回复数据。8.根据权利要求1

5中任一项所述的方法,其中,利用包括所述大规模无监督文本数据和所述弱监督指令数据的混合训练数据,对大语言模型进行预训练包括:针对所述混合训练数据中的弱监督指令数据,将所述弱监督指令数据所包括指令训练样本中的样本指令输入所述大语言模型,以得到预测回复数据;基于所述真实回复数据和所述预测回复数据,确定损失值;以及基于所述损失值,调整所述大语言模型的参数。9.根据权利要求1

5中任一项所述的方法,其中,利用包括所述大规模无监督文本数据和所述弱监督指令数据的混合训练数据,对大语言模型进行预训练包括:
针对所述混合训练数据中的大规模无监督文本数据,基于掩码语言模型任务、语言模型、对话语言模型、下句预测任务中的至少一个,利用所述大规模无监督文本数据对所述大语言模型进行预训练。10.根据权利要求1

5中任一项所述的方法,其中,所述大规模问答数据包括问答场景的大规模网页数据。11.一种大语言模型的训练装置,包括:获取单元,被配置为获取大规模无监督文本数据;提取单元,被配置为从大规模问答数据中提取多个问题答案对,所述多个问题答案对中的每一个问题答案对包括对应的问题文本和答案文本;构建单元,被配置为基于所述多个问题答案对,构建弱监督指令数据,所述构建单元包括:第一构建子单元,被配置为针对所述多个问题答案对中的每一个问题答案对,将该问题答案对中的问题文本作...

【专利技术属性】
技术研发人员:丁思宇王硕寰赵晏彬孙宇田浩吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1