System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本预训练模型的生成方法、文本预测方法及相关设备技术_技高网

文本预训练模型的生成方法、文本预测方法及相关设备技术

技术编号:40288407 阅读:8 留言:0更新日期:2024-02-07 20:40
本申请提供了一种文本预训练模型的生成方法、文本预测方法及相关设备,用于提升预训练模型的精确度。该方法包括:针对原始样本文本集中的原始样本文本执行数据增广操作,得到与所述原始样本文本相对应的增广样本文本,并根据所述原始样本文本和所述增广样本文本生成正样本对;通过初始模型对所述正样本对执行对比学习,根据对比学习结果以及对比损失函数计算所述初始模型的对比损失函数值;其中,所述对比损失函数值用于表征所述初始模型针对正样本对的识别准确度;根据所述对比损失函数值对所述初始模型进行调整,得到文本预训练模型;其中,所述文本预训练模型用于执行文本预测任务。

【技术实现步骤摘要】

本申请涉及自然语言处理,特别涉及一种文本预训练模型的生成方法、文本预测方法及相关设备


技术介绍

1、近些年,预训练模型在自然语言处理领域的应用非常广泛,该类模型首先在大量无标签样本上通过自监督方式进行训练,学习到通用的文本表示方式;然后,应用时只需在特定任务上进行微调即可。相比于从头开始训练,在预训练模型基础上进行微调所需的样本数量更少,并且有更强的泛化能力。其中,预训练模型是指:先在大量无标签的语料上预先训练一个初始模型,然后在目标任务上使用有标签样本对该模型进行精调,从而达到提高目标任务执行效率的目的。

2、在相关技术中,预训练模型只能基于已有的原始样本集进行训练,由于原始样本集的数据量较少,因此,导致预训练模型的精确度不高。


技术实现思路

1、本申请提供了一种文本预训练模型的生成方法、文本预测方法及相关设备,用于提升文本预训练模型的精确度。

2、第一方面,本申请提供了一种文本预训练模型的生成方法,包括:

3、针对原始样本文本集中的原始样本文本执行数据增广操作,得到与所述原始样本文本相对应的增广样本文本,并根据所述原始样本文本和所述增广样本文本生成正样本对;

4、通过初始模型对所述正样本对执行对比学习,根据对比学习结果以及对比损失函数计算所述初始模型的对比损失函数值;其中,所述对比损失函数值用于表征所述初始模型针对正样本对的识别准确度;

5、根据所述对比损失函数值对所述初始模型进行调整,得到文本预训练模型;其中,所述文本预训练模型用于执行文本预测任务。

6、第二方面,本申请提供了一种文本预测方法,包括:

7、获取预测文本;

8、将预测文本输入文本预测模型,得到所述预测文本对应的预测结果;其中,所述预测结果用于表征所述预测文本所属的文本类别和/或文本意图标签;

9、其中,所述文本预测模型通过以下方式得到:获取已标注的预测样本文本集;其中,所述预测样本文本集中包含多个携带预测标签的预测样本文本;通过所述预测样本文本集,对上述的文本预训练模型进行训练,得到所述文本预测模型。

10、第三方面,本申请提供了一种文本预训练模型的生成装置,包括:

11、增广模块,适于针对原始样本文本集中的原始样本文本执行数据增广操作,得到与所述原始样本文本相对应的增广样本文本,并根据所述原始样本文本和所述增广样本文本生成正样本对;

12、对比学习模块,适于通过初始模型对所述正样本对执行对比学习,根据对比学习结果以及对比损失函数计算所述初始模型的对比损失函数值;其中,所述对比损失函数值用于表征所述初始模型针对正样本对的识别准确度;

13、调整模块,适于根据所述对比损失函数值对所述初始模型进行调整,得到文本预训练模型;其中,所述文本预训练模型用于执行文本预测任务。

14、第四方面,本申请提供了一种文本预测装置,包括:

15、获取模块,适于获取预测文本;

16、预测模块,适于将预测文本输入文本预测模型,得到所述预测文本对应的预测结果;其中,所述预测结果用于表征所述预测文本所属的文本类别和/或文本意图标签;

17、其中,所述文本预测模型通过以下方式得到:获取已标注的预测样本文本集;其中,所述预测样本文本集中包含多个携带预测标签的预测样本文本;通过所述预测样本文本集,对上述的文本预训练模型进行训练,得到所述文本预测模型。

18、第五方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。

19、第六方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述方法。

20、在本申请所提供的实施例中,首先,针对原始样本文本集中的原始样本文本执行数据增广操作,得到与原始样本文本相对应的增广样本文本,根据原始样本文本以及对应于原始样本文本的增广样本文本生成正样本对。然后,通过初始模型,对正样本对执行对比学习,根据对比学习结果以及对比损失函数计算初始模型的对比损失函数值,以根据对比损失函数值对初始模型进行调整,从而得到用于执行文本预测任务的文本预训练模型。由此可见,该方式通过对原始样本文本执行数据增广操作的方式,一方面,扩充了原始样本文本的数量,有利于提升模型的训练效果;另一方面,在执行数据增广操作的基础上,便于基于增广操作结果构建正样本对,借助正样本对进行对比学习,并通过对比损失函数评估初始模型针对正样本的预测能力,有助于模型学习到相似样本之间的特征。具体的,初始模型针对一组正样本对进行学习,以确定该组正样本对之间的相似特征,通过学习结果对遇到的文本预测任务进行预测,使初始模型的预测能力逐渐提升,从而实现了提升文本预训练模型的精确度。

21、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种文本预训练模型的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述针对原始样本文本集中的原始样本文本执行数据增广操作,得到与所述原始样本文本相对应的增广样本文本包括:

3.根据权利要求2所述的方法,其特征在于,所述从预设的多种增广操作类型中选择至少一种增广操作类型作为目标增广操作类型,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述对比损失函数值对所述初始模型进行调整,得到文本预训练模型之前,还包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述对比损失函数值、所述鉴别损失函数值以及所述建模损失函数值,得到第二目标损失函数值,包括:

6.根据权利要求4所述的方法,其特征在于,所述预设的同义词库通过以下方式构建:

7.一种文本预测方法,其特征在于,包括:

8.一种文本预训练模型的生成装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种文本预训练模型的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述针对原始样本文本集中的原始样本文本执行数据增广操作,得到与所述原始样本文本相对应的增广样本文本包括:

3.根据权利要求2所述的方法,其特征在于,所述从预设的多种增广操作类型中选择至少一种增广操作类型作为目标增广操作类型,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述对比损失函数值对所述初始模型进行调整,得到文本预训练模型之前,还包括:

5.根据权利要求4所述的方...

【专利技术属性】
技术研发人员:杨森蒋宁陆全肖冰李宽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1