【技术实现步骤摘要】
样本数据的生成方法和大型语言模型的训练方法
[0001]本申请涉及计算机
,尤其涉及一种样本数据的生成方法和大型语言模型的训练方法
。
技术介绍
[0002]大型语言模型
(Large Language Model
,
LLM)
,是指能够处理大量自然语言数据的深度学习模型,它已经在自然语言处理
、
文本生成
、
机器翻译等多个领域中展现出了巨大的潜力
。
[0003]然而,现有技术中,在一些场景下,存在标注困难的问题
。
例如,在对长文本进行摘要提取时,由于一些大型语言模型的
token
数限制,导致无法直接将长文本作为上述大型语言模型的输入数据,导致难以获得用于提取文本摘要的大型语言模型的样本数据,或者获得用于提取文本摘要的大型语言模型的样本数据的效率较低
。
技术实现思路
[0004]鉴于此,为解决上述部分或全部技术问题,本申请实施例提供一种样本数据的生成方法和大型语言模型的训练方法
。
[0005]第一方面,本申请实施例提供一种样本数据的生成方法,所述方法包括:
[0006]获取目标文本,其中,所述目标文本包含的字符的数量大于或等于第一数量;
[0007]从所述目标文本中提取字符,得到所述目标文本对应的提取字符;
[0008]将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,其中,所述第一大型语言 ...
【技术保护点】
【技术特征摘要】
1.
一种样本数据的生成方法,其特征在于,所述方法包括:获取目标文本,其中,所述目标文本包含的字符的数量大于或等于第一数量;从所述目标文本中提取字符,得到所述目标文本对应的提取字符;将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,其中,所述第一大型语言模型用于提取文本的摘要;确定所述第一摘要是否符合预设摘要条件;在所述第一摘要符合所述预设摘要条件的情况下,基于所述目标文本和所述第一摘要,生成样本数据,其中,所述样本数据用于微调第三大型语言模型,所述第三大型语言模型用于提取文本的摘要
。2.
根据权利要求1所述的方法,其特征在于,所述将所述提取字符输入至预先训练的第一大型语言模型,得到所述目标文本的第一摘要,包括:执行如下摘要提取步骤:从预先训练的大型语言模型集合中,选取未被选取过的第一大型语言模型;将所述提取字符输入至所述第一大型语言模型,得到所述目标文本的第一摘要;以及在所述确定所述第一摘要是否符合预设摘要条件之后,所述方法还包括:在所述第一摘要不符合所述预设摘要条件的情况下,执行所述摘要提取步骤
。3.
根据权利要求1所述的方法,其特征在于,所述从所述目标文本中提取字符,得到所述目标文本对应的提取字符,包括:执行如下字符提取步骤:从所述目标文本中随机提取第二数量个字符,得到所述目标文本对应的提取字符;以及在所述确定所述第一摘要是否符合预设摘要条件之后,所述方法还包括:在所述第一摘要不符合所述预设摘要条件的情况下,执行所述字符提取步骤
。4.
根据权利要求1‑3之一所述的方法,其特征在于,在所述获取目标文本之后,所述方法还包括:将所述目标文本划分为文本段集合;针对所述文本段集合中的文本段,将该文本段输入至预先训练的第二大型语言模型,得到该文本段的摘要,其中,所述第二大型语言模型用于提取文本段的摘要;合并所得到的各个文本段的摘要,得到第二摘要;基于所述目标文本和所述第二摘要,生成样本数据
。5.
一种大型语言模型的训练方法,其特征在于,所述方法包括:获取训练样本集合,其中,所述训练样本集合中的训练样本包括采用如权利要求1‑4之一所述的方法生成的样本数据;采用所述训练样本集合,对预训练完成的第三大型语言模型进行指令微调训练,得到训练完成的第三大型语言模型
。6.
根据权利要求5所述的方法,其特征在于,所述第三大型语言模型包括
Transformer
子层,采用
RMSNorm
规范化函数对所述
Transformer
子层的输入数据进行...
【专利技术属性】
技术研发人员:路香菊,闫贺,朱俊敏,
申请(专利权)人:北京爱奇艺科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。