样本数据的生成方法和大型语言模型的训练方法技术

技术编号:39601670 阅读:9 留言:0更新日期:2023-12-03 20:01


【技术实现步骤摘要】
样本数据的生成方法和大型语言模型的训练方法


[0001]本申请涉及计算机
,尤其涉及一种样本数据的生成方法和大型语言模型的训练方法


技术介绍

[0002]大型语言模型
(Large Language Model

LLM)
,是指能够处理大量自然语言数据的深度学习模型,它已经在自然语言处理

文本生成

机器翻译等多个领域中展现出了巨大的潜力

[0003]然而,现有技术中,在一些场景下,存在标注困难的问题

例如,在对长文本进行摘要提取时,由于一些大型语言模型的
token
数限制,导致无法直接将长文本作为上述大型语言模型的输入数据,导致难以获得用于提取文本摘要的大型语言模型的样本数据,或者获得用于提取文本摘要的大型语言模型的样本数据的效率较低


技术实现思路

[0004]鉴于此,为解决上述部分或全部技术问题,本申请实施例提供一种样本数据的生成方法和大型语言模型的训练方法

[0005]第一方面,本申请实施例提供一种样本数据的生成方法,所述方法包括:
[0006]获取目标文本,其中,所述目标文本包含的字符的数量大于或等于第一数量;
[0007]从所述目标文本中提取字符,得到所述目标文本对应的提取字符;
[0008]将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,其中,所述第一大型语言模型用于提取文本的摘要;
[0009]确定所述第一摘要是否符合预设摘要条件;
[0010]在所述第一摘要符合所述预设摘要条件的情况下,基于所述目标文本和所述第一摘要,生成样本数据,其中,所述样本数据用于微调第三大型语言模型,所述第三大型语言模型用于提取文本的摘要

[0011]在一个可能的实施方式中,所述将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,包括:
[0012]执行如下摘要提取步骤:
[0013]从预先训练的大型语言模型集合中,选取未被选取过的第一大型语言模型;
[0014]将所述提取字符输入至所述第一大型语言模型,得到所述目标文本的第一摘要;以及
[0015]在所述确定所述第一摘要是否符合预设摘要条件之后,所述方法还包括:
[0016]在所述第一摘要不符合所述预设摘要条件的情况下,执行所述摘要提取步骤

[0017]在一个可能的实施方式中,所述从所述目标文本中提取字符,得到所述目标文本对应的提取字符,包括:
[0018]执行如下字符提取步骤:
[0019]从所述目标文本中随机提取第二数量个字符,得到所述目标文本对应的提取字符;以及
[0020]在所述确定所述第一摘要是否符合预设摘要条件之后,所述方法还包括:
[0021]在所述第一摘要不符合所述预设摘要条件的情况下,执行所述字符提取步骤

[0022]在一个可能的实施方式中,在所述获取目标文本之后,所述方法还包括:
[0023]将所述目标文本划分为文本段集合;
[0024]针对所述文本段集合中的文本段,将该文本段输入至预先训练的第二大型语言模型,得到该文本段的摘要,其中,所述第二大型语言模型用于提取文本段的摘要;
[0025]合并所得到的各个文本段的摘要,得到第二摘要;
[0026]基于所述目标文本和所述第二摘要,生成样本数据

[0027]第二方面,本申请实施例提供一种大型语言模型的训练方法,所述方法包括:
[0028]获取训练样本集合,其中,所述训练样本集合中的训练样本包括采用如上述任一样本数据的生成方法生成的样本数据;
[0029]采用所述训练样本集合,对预训练完成的第三大型语言模型进行指令微调训练,得到训练完成的第三大型语言模型

[0030]在一个可能的实施方式中,
[0031]所述第三大型语言模型包括
Transformer
子层,采用
RMSNorm
规范化函数对所述
Transformer
子层的输入数据进行归一化;和
/

[0032]所述第三大型语言模型的激活函数为
SwiGLU
激活函数

[0033]第三方面,本申请实施例提供一种摘要提取方法,所述方法包括:
[0034]获取目标文本,其中,所述目标文本包含的字符的数量大于或等于第一数量;
[0035]从所述目标文本中提取字符,得到所述目标文本对应的提取字符;
[0036]将所述提取字符输入至预先训练的第三大型语言模型,以提取所述目标文本的摘要,其中,所述第三大型语言模型采用如上述任一大型语言模型的训练方法训练完成,所述第三大型语言模型用于提取文本的摘要

[0037]第四方面,本申请实施例提供一种样本数据的生成装置,所述装置包括:
[0038]第一获取单元,用于获取目标文本,其中,所述目标文本包含的字符的数量大于或等于第一数量;
[0039]第一提取单元,用于从所述目标文本中提取字符,得到所述目标文本对应的提取字符;
[0040]第一输入单元,用于将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,其中,所述第一大型语言模型用于提取文本的摘要;
[0041]确定单元,用于确定所述第一摘要是否符合预设摘要条件;
[0042]第一生成单元,用于在所述第一摘要符合所述预设摘要条件的情况下,基于所述目标文本和所述第一摘要,生成样本数据,其中,所述样本数据用于微调第三大型语言模型,所述第三大型语言模型用于提取文本的摘要

[0043]在一个可能的实施方式中,所述将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,包括:
[0044]执行如下摘要提取步骤:
[0045]从预先训练的大型语言模型集合中,选取未被选取过的第一大型语言模型;
[0046]将所述提取字符输入至所述第一大型语言模型,得到所述目标文本的第一摘要;以及
[0047]在所述确定所述第一摘要是否符合预设摘要条件之后,所述装置还包括:
[0048]第一执行单元,用于在所述第一摘要不符合所述预设摘要条件的情况下,执行所述摘要提取步骤

[0049]在一个可能的实施方式中,所述从所述目标文本中提取字符,得到所述目标文本对应的提取字符,包括:
[0050]执行如下字符提取步骤:
[0051]从所述目标文本中随机提取第二数量个字符,得到所述目标文本对应的提取字符;以及
[0052]在所述确定所述第一摘要是否符合预设摘要条件之后,所述装置还包括:
[0053]第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种样本数据的生成方法,其特征在于,所述方法包括:获取目标文本,其中,所述目标文本包含的字符的数量大于或等于第一数量;从所述目标文本中提取字符,得到所述目标文本对应的提取字符;将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,其中,所述第一大型语言模型用于提取文本的摘要;确定所述第一摘要是否符合预设摘要条件;在所述第一摘要符合所述预设摘要条件的情况下,基于所述目标文本和所述第一摘要,生成样本数据,其中,所述样本数据用于微调第三大型语言模型,所述第三大型语言模型用于提取文本的摘要
。2.
根据权利要求1所述的方法,其特征在于,所述将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,包括:执行如下摘要提取步骤:从预先训练的大型语言模型集合中,选取未被选取过的第一大型语言模型;将所述提取字符输入至所述第一大型语言模型,得到所述目标文本的第一摘要;以及在所述确定所述第一摘要是否符合预设摘要条件之后,所述方法还包括:在所述第一摘要不符合所述预设摘要条件的情况下,执行所述摘要提取步骤
。3.
根据权利要求1所述的方法,其特征在于,所述从所述目标文本中提取字符,得到所述目标文本对应的提取字符,包括:执行如下字符提取步骤:从所述目标文本中随机提取第二数量个字符,得到所述目标文本对应的提取字符;以及在所述确定所述第一摘要是否符合预设摘要条件之后,所述方法还包括:在所述第一摘要不符合所述预设摘要条件的情况下,执行所述字符提取步骤
。4.
根据权利要求1‑3之一所述的方法,其特征在于,在所述获取目标文本之后,所述方法还包括:将所述目标文本划分为文本段集合;针对所述文本段集合中的文本段,将该文本段输入至预先训练的第二大型语言模型,得到该文本段的摘要,其中,所述第二大型语言模型用于提取文本段的摘要;合并所得到的各个文本段的摘要,得到第二摘要;基于所述目标文本和所述第二摘要,生成样本数据
。5.
一种大型语言模型的训练方法,其特征在于,所述方法包括:获取训练样本集合,其中,所述训练样本集合中的训练样本包括采用如权利要求1‑4之一所述的方法生成的样本数据;采用所述训练样本集合,对预训练完成的第三大型语言模型进行指令微调训练,得到训练完成的第三大型语言模型
。6.
根据权利要求5所述的方法,其特征在于,所述第三大型语言模型包括
Transformer
子层,采用
RMSNorm
规范化函数对所述
Transformer
子层的输入数据进行...

【专利技术属性】
技术研发人员:路香菊闫贺朱俊敏
申请(专利权)人:北京爱奇艺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1