System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语句转换模型的训练方法、装置、设备、存储介质及产品制造方法及图纸_技高网

语句转换模型的训练方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:40552571 阅读:8 留言:0更新日期:2024-03-05 19:12
本申请提供了一种语句转换模型的训练方法、装置、设备、存储介质及产品,属于神经网络技术领域。所述方法包括:获取多个第一样本数据,所述第一样本数据包括结构化查询语句;基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型;获取多个第二样本数据,所述第二样本数据包括自然语言文本和被标注的所述自然语言文本对应的结构化查询语句,所述第二样本数据的数量小于所述第一样本数据的数量;基于所述多个第二样本数据,对所述第一语句转换模型进行调整,得到第二语句转换模型。本申请实施例提供的无监督预训练和有监督指令微调的方法不仅能够提高第二语句转换模型的泛化能力,还能够提高第二语句转换模型的推理能力。

【技术实现步骤摘要】

本申请涉及神经网络,特别涉及一种语句转换模型的训练方法、装置、设备、存储介质及产品


技术介绍

1、由于数据库往往需要识别通过结构化查询语言(structured query language,sql)的查询语句,而无法识别自然语言文本;因此,在从数据库中读取数据时,需要先将自然语言文本转换成sql,然后基于sql从数据库中读取对应的数据。随着神经网络技术的发展,可以借助于语句转换模型将自然语言文本转换成sql,因此,需要训练语句转换模型。


技术实现思路

1、本申请实施例提供了一种语句转换模型的训练方法、装置、设备、存储介质及产品,不仅能够提高训练得到的第二语句转换模型的泛化能力,还能够提高第二语句转换模型的推理能力。所述技术方案如下:

2、一方面,提供了一种语句转换模型的训练方法,所述方法包括:

3、获取多个第一样本数据,所述第一样本数据包括结构化查询语句;

4、基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型;

5、获取多个第二样本数据,所述第二样本数据包括自然语言文本和被标注的所述自然语言文本对应的结构化查询语句,所述第二样本数据的数量小于所述第一样本数据的数量;

6、基于所述多个第二样本数据,对所述第一语句转换模型进行调整,得到第二语句转换模型。

7、另一方面,提供了一种语句转换模型的训练装置,所述装置包括:

8、第一获取模块,用于获取多个第一样本数据,所述第一样本数据包括结构化查询语句;

9、预训练模块,用于基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型;

10、第二获取模块,用于获取多个第二样本数据,所述第二样本数据包括自然语言文本和被标注的所述自然语言文本对应的结构化查询语句,所述第二样本数据的数量小于所述第一样本数据的数量;

11、调整模块,用于基于所述多个第二样本数据,对所述第一语句转换模型进行调整,得到第二语句转换模型。

12、另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现上述任一实现方式所述的语句转换模型的训练方法。

13、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一实现方式所述的语句转换模型的训练方法。

14、另一方面,提供了一种计算机程序产品,所述计算机程序产品存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行以实现如上述任一实现方式所述的语句转换模型的训练方法。

15、在本申请实施例中,基于第一样本数据进行无监督预训练,基于第二样本数据进行有监督指令微调最终得到语句转换模型;一方面,由于第一样本数据包括结构化查询语句,因此,第一样本数据不需要人工标注,可以收集海量的预训练所需的第一样本数据,提高基于第一样本数据进行模型预训练得到的第一语句转换模型的泛化能力。另一方面,由于第二样本数据是已标注的样本数据,因此,基于第二样本数据对第一语句转换模型进行指令微调,能够大大提升得到的第二语句转换模型的指令遵循能力,使得第二语句转换模型可以根据用户描述的自然语言文本,更准确地生成结构化查询语句,从而提高了第二语句转换模型的推理能力。由此可见,本申请实施例提供的无监督预训练和有监督指令微调的方法不仅能够提高训练得到的第二语句转换模型的泛化能力,还能够提高第二语句转换模型的推理能力。

本文档来自技高网...

【技术保护点】

1.一种语句转换模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述多个结构化查询语句,通过分组查询注意力机制,对所述基础模型进行训练,得到所述第一语句转换模型,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型,包括:

6.根据权利要求1所述的方法,其特征在于,所述获取多个第二样本数据,包括:

7.根据权利要求1所述的方法,其特征在于,所述基于所述多个第二样本数据,对所述第一语句转换模型进行调整,得到第二语句转换模型,包括:

8.根据权利要求1或7所述的方法,其特征在于,所述基于所述多个第二样本数据,对所述第一语句转换模型进行调整,得到第二语句转换模型,包括:

9.根据权利要求1所述的方法,其特征在于,所述基于所述多个第二样本数据,对所述第一语句转换模型进行调整,得到第二语句转换模型,包括:

10.根据权利要求1所述的方法,其特征在于,所述获取多个第一样本数据,包括:

11.一种语句转换模型的训练装置,其特征在于,所述装置包括:

12.一种终端,其特征在于,所述终端包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现如权利要求1至10任一项所述的语句转换模型的训练方法。

13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至10任一项所述的语句转换模型的训练方法。

14.一种计算机程序产品,其特征在于,所述计算机程序产品存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行,以实现如权利要求1至10任一项所述的语句转换模型的训练方法。

...

【技术特征摘要】

1.一种语句转换模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述多个结构化查询语句,通过分组查询注意力机制,对所述基础模型进行训练,得到所述第一语句转换模型,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述多个结构化查询语句,对基础模型进行预训练,得到第一语句转换模型,包括:

6.根据权利要求1所述的方法,其特征在于,所述获取多个第二样本数据,包括:

7.根据权利要求1所述的方法,其特征在于,所述基于所述多个第二样本数据,对所述第一语句转换模型进行调整,得到第二语句转换模型,包括:

8.根据权利要求1或7所述的方法,其特征在于,所述基于所述多个第二样本数据,对所述第一语句转换模...

【专利技术属性】
技术研发人员:王闯闯郑志彤唐开
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1