System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本生成模型的训练方法、装置,以及文本生成方法制造方法及图纸_技高网

一种文本生成模型的训练方法、装置,以及文本生成方法制造方法及图纸

技术编号:40558265 阅读:8 留言:0更新日期:2024-03-05 19:19
本申请提供了一种文本生成模型的训练方法、装置,以及文本生成方法,能够提升第一模型生成的文本的准确性。模型包括第一模型,第一模型为第一神经网络经过训练生成,第一神经网络包括第一子神经网络、标签向量生成器、解码器和概率分布预测器,方法包括:将拼接后的拼接文本序列输入到第一神经网络中,根据第一神经网络输出的每一输出文本的预测序列和真实序列,确定目标函数。使用目标函数迭代训练第一神经网络,获取第一模型。其中,标签向量生成器能够根据第一子神经网络最后一层隐藏层输出的隐藏状态向量,确定用于表示隐藏状态向量对应的拼接文本的真实性特征的分类标签向量,来指导解码器学习从包括真实答案的拼接文本中生成答案。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种文本生成模型的训练方法、装置,以及文本生成方法


技术介绍

1、自然语言生成模型用于根据用户的输入文本(例如问题),生成相匹配的输出文本(例如答案)。

2、在使用训练集训练模型的过程中,模型通常使用预定义词表对训练集中的文本进行切分,生成各个分词,以便于后续对各个分词进行编码。由于预定义词表和训练集的规模有限,为了使模型能够学习新知识,目前利用外挂语料库使模型学习新知识。首先使用检索器从外挂语料库中召回与输入文本最相关的至少一个文本向模型输入,然后根据模型预测的输出文本和真实的输出文本对模型进行训练。

3、但是,由于召回的至少一个文本与输入文本的相关性可能较弱,即召回的文本中包括了真实答案的文本较少甚至召回的所有文本均不包括真实答案,使得模型从不包括真实答案的文本中找到了错误的答案,导致生成的文本的准确性较低。


技术实现思路

1、本申请提供了一种文本生成模型的训练方法、装置,以及文本生成方法,能够提升第一模型生成的文本的准确性。

2、第一方面,提供了一种文本生成模型的训练方法,模型包括第一模型,第一模型为第一神经网络经过训练生成,第一神经网络包括第一子神经网络、标签向量生成器、解码器和概率分布预测器,方法包括:

3、将每一输入文本序列与k个文本片段的序列进行拼接,生成k个拼接文本序列,k个文本片段为使用检索器从外挂语料库中获取的、与输入文本序列相似度最高的k个文本片段,k为大于或等于0的整数;>

4、向第一子神经网络输入k个拼接文本序列,生成第一子神经网络最后一层隐藏层输出的k个隐藏状态向量,第一子神经网络采用只包括解码器的架构,每k个隐藏状态向量对应一个输入文本序列;

5、向标签向量生成器输入k个隐藏状态向量,生成k个分类标签向量,分类标签向量表示隐藏状态向量对应的文本片段是否包括真实答案;

6、根据每一分类标签向量,更新相应的隐藏状态向量;

7、向解码器输入更新后的每一隐藏状态向量,生成每一中间向量;

8、向概率分布预测器输入每一中间向量,生成每一输出文本的预测序列中每一目标输出分词序列在第一词表的第一概率分布,第一词表是根据外挂语料库确定的;

9、根据每一目标输出分词序列对应的第一概率分布和相应的词表,计算每一输出文本的预测序列;

10、根据每一输出文本的真实序列和预测序列,确定目标函数;

11、使用目标函数训练第一神经网络,得到训练好的第一模型。

12、在一种可行的设计中,标签向量生成器包括第一线性变换层、归一化层和嵌入层,生成k个分类标签向量,包括:

13、使用第一线性变换层和归一化层,计算每一隐藏状态向量对应的分类标签,分类标签用于标识隐藏状态向量对应的文本片段是否包括真实答案;

14、使用嵌入层对每一分类标签进行编码,生成每一分类标签向量。

15、在一种可行的设计中,根据每一分类标签向量,更新相应的隐藏状态向量,包括:

16、将每一分类标签向量与相应的隐藏状态向量进行拼接,以更新相应的隐藏状态向量。

17、在一种可行的设计中,根据每一输出文本的真实序列和预测序列,确定目标函数,包括:

18、通过最大化每一输出文本的真实序列与预测序列的对数似然估计,获取第一神经网络对应的第一损失函数;

19、获取标签向量生成器对应的交叉熵损失函数;

20、将第一损失函数与加权后的交叉熵损失函数的和,确定为目标函数;

21、方法还包括:

22、使用目标函数训练标签向量生成器,获取训练后的标签向量生成器。

23、在一种可行的设计中,模型还包括第二模型,第二模型为第二神经网络经过训练生成,第二神经网络采用只包括解码器的架构,在根据每一目标输出分词序列对应的第一概率分布和相应的词表,计算每一输出文本的预测序列之前,方法包括:

24、向第二神经网络输入每一输入文本序列,生成每一相应的输出分词序列在第二词表的第二概率分布,第二词表是根据输入第二神经网络的文本确定的,第二神经网络采用只包括解码器的架构;

25、其中,根据每一目标输出分词序列对应的第一概率分布和相应的词表,计算每一输出文本的预测序列,包括:

26、根据每一目标输出分词序列对应的第一概率分布、第二概率分布,以及相应的词表,计算每一输出文本的预测序列。

27、在一种可行的设计中,根据每一目标输出分词序列对应的第一概率分布和相应的词表,计算每一输出文本的预测序列之前,方法包括:

28、向大模型输入每一输入文本序列,生成每一相应的输出分词序列在第三词表的第三概率分布,第三词表为训练大模型使用的预定义词表;

29、根据每一目标输出分词序列对应的第一概率分布和相应的词表,计算每一输出文本的预测序列,包括:

30、根据每一目标输出分词序列对应的第一概率分布、第二概率分布、第三概率分布,以及相应的词表,计算每一输出文本的预测序列。

31、在一种可行的设计中,根据每一目标输出分词序列对应的第一概率分布、第二概率分布、第三概率分布,以及相应的词表,计算每一输出文本的预测序列,包括:

32、将每一目标输出分词序列对应的第一概率分布、第二概率分布和第三概率分布,分别进行加权处理后再进行加和处理,生成每一目标输出分词序列在融合词表的融合概率分布,融合词表包括第一词表、第二词表和第三词表;

33、将每一融合概率分布中最大的概率在融合词表中对应的数字,确定为相应的目标输出分词序列;

34、将各目标输出分词序列组成相应的输出文本的预测序列。

35、在一种可行的设计中,根据每一输出文本的真实序列和预测序列,确定目标函数,包括:

36、通过最大化每一输出文本的真实序列与预测序列的对数似然估计,获取第一神经网络对应的第一损失函数;

37、获取第二神经网络对应的第二损失函数;

38、获取标签向量生成器对应的交叉熵损失函数;

39、将第一损失函数、加权后的第二损失函数与加权后的交叉熵损失函数的和,确定为目标函数;

40、方法还包括:

41、使用目标函数训练第二神经网络和标签向量生成器,获取第二模型和训练后的标签向量生成器。

42、第二方面,还提供了一种文本生成方法,使用如上述实施例所述的模型,模型包括第一模型,第一模型为第一神经网络经过训练生成,第一神经网络包括第一子神经网络、标签向量生成器、解码器和概率分布预测器,方法包括:

43、将待处理文本序列与k个目标文本片段的序列进行拼接,生成k个目标拼接文本序列,k个目标文本片段为使用检索器从外挂语料库中获取的、与待处理文本序列相似度最高的k个文本片段;

44、向训练好的第一子神经网络输入k个目本文档来自技高网...

【技术保护点】

1.一种文本生成模型的训练方法,其特征在于,所述模型包括第一模型,所述第一模型为第一神经网络经过训练生成,所述第一神经网络包括第一子神经网络、标签向量生成器、解码器和概率分布预测器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述标签向量生成器包括第一线性变换层、归一化层和嵌入层,所述生成K个分类标签向量,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述根据每一所述分类标签向量,更新相应的所述隐藏状态向量,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述根据每一所述输出文本的真实序列和所述预测序列,确定目标函数,包括:

5.根据权利要求1或2所述的方法,其特征在于,所述模型还包括第二模型,所述第二模型为第二神经网络经过训练生成,所述第二神经网络采用只包括解码器的架构,在根据每一所述目标输出分词序列对应的所述第一概率分布和相应的词表,计算每一所述输出文本的所述预测序列之前,所述方法包括:

6.根据权利要求5所述的方法,其特征在于,在根据每一所述目标输出分词序列对应的所述第一概率分布和相应的词表,计算每一所述输出文本的所述预测序列之前,所述方法包括:

7.根据权利要求6所述的方法,其特征在于,根据每一所述目标输出分词序列对应的所述第一概率分布、所述第二概率分布、所述第三概率分布,以及相应的词表,计算每一所述输出文本的所述预测序列,包括:

8.根据权利要求6或7所述的方法,其特征在于,所述根据每一所述输出文本的真实序列和所述预测序列,确定目标函数,包括:

9.一种文本生成方法,其特征在于,使用如权利要求1-8中任一项所述的方法中的模型,所述模型包括第一模型,所述第一模型为第一神经网络经过训练生成,所述第一神经网络包括第一子神经网络、标签向量生成器、解码器和概率分布预测器,所述方法包括:

10.一种文本生成模型的训练装置,其特征在于,所述模型包括第一模型,所述第一模型为第一神经网络经过训练生成,所述第一神经网络包括第一子神经网络、标签向量生成器、解码器和概率分布预测器,所述装置包括:

...

【技术特征摘要】

1.一种文本生成模型的训练方法,其特征在于,所述模型包括第一模型,所述第一模型为第一神经网络经过训练生成,所述第一神经网络包括第一子神经网络、标签向量生成器、解码器和概率分布预测器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述标签向量生成器包括第一线性变换层、归一化层和嵌入层,所述生成k个分类标签向量,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述根据每一所述分类标签向量,更新相应的所述隐藏状态向量,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述根据每一所述输出文本的真实序列和所述预测序列,确定目标函数,包括:

5.根据权利要求1或2所述的方法,其特征在于,所述模型还包括第二模型,所述第二模型为第二神经网络经过训练生成,所述第二神经网络采用只包括解码器的架构,在根据每一所述目标输出分词序列对应的所述第一概率分布和相应的词表,计算每一所述输出文本的所述预测序列之前,所述方法包括:

6.根据权利要求5所述的方法,其...

【专利技术属性】
技术研发人员:穆晶晶李健铨胡加明
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1