语言模型的训练方法、文本生成方法及相关装置制造方法及图纸

技术编号:38645416 阅读:13 留言:0更新日期:2023-08-31 18:36
本申请提出一种语言模型的训练方法、文本生成方法及相关装置,能够将原始语句输入到语言模型中,以使语言模型对原始语句中各词汇的权重进行预测,得到原始语句中各词汇的权重值,各词汇的权重表示原始语句中各词汇所表达的语义的重要程度。然后将训练语句输入到语言模型中,以使语言模型基于训练语句进行文本生成,得到文本生成结果。根据原始语句遮罩部分的权重值和文本生成结果,确定语言模型的损失,根据语言模型的损失调整语言模型的参数。如此设置,使模型能够区分不同词汇,并自适应地调整每个词汇所表达的语义的重要程度,而不是无差别地计算错误字数,使得语言模型能够真正地理解语义,实现提高预测结果的准确性的目的。的。的。

【技术实现步骤摘要】
语言模型的训练方法、文本生成方法及相关装置


[0001]本申请涉及文本生成
,尤其涉及一种语言模型的训练方法、文本生成方法及相关装置。

技术介绍

[0002]语言模型在进行文本生成训练后,能够根据提供的语料补充生成完整的语句。该类型的语言模型在训练时,一般是通过比较模型的预测结果跟真实标签的差异文本数量,根据差异文本数量对模型的参数进行调整。但是,这种方式使得语言模型预测错误受到的惩罚只与预测数量有关,而跟真实语义无关,导致语言模型无法真正地进行语义理解,影响预测结果的准确性。

技术实现思路

[0003]有鉴于此,本申请提出一种语言模型的训练方法、文本生成方法及相关装置,以解决现有技术中语言模型无法真正地进行语义理解,影响预测结果的准确性的问题。本申请提出的技术方案具体如下:
[0004]第一方面,本申请提供了一种语言模型的训练方法,包括:
[0005]将原始语句输入到语言模型中,以使所述语言模型对所述原始语句中各词汇的权重进行预测,得到所述原始语句中各词汇的权重值;所述各词汇的权重表示所述原始语句中各词汇所表达的语义的重要程度;
[0006]将训练语句输入到所述语言模型中,以使所述语言模型基于所述训练语句进行文本生成,得到文本生成结果;其中,所述训练语句是对所述原始语句进行遮罩处理后得到的,所述文本生成结果包括对所述训练语句中的遮罩部分的预测结果;
[0007]根据所述原始语句遮罩部分的权重值和所述文本生成结果,确定所述语言模型的损失,根据所述语言模型的损失调整所述语言模型的参数。
[0008]第二方面,本申请提供了一种语言模型的训练装置,包括:
[0009]第一输入模块,用于将原始语句输入到语言模型中,以使所述语言模型对所述原始语句中各词汇的权重进行预测,得到所述原始语句中各词汇的权重值;所述各词汇的权重表示所述原始语句中各词汇所表达的语义的重要程度;
[0010]第二输入模块,用于将训练语句输入到所述语言模型中,以使所述语言模型基于所述训练语句进行文本生成,得到文本生成结果;其中,所述训练语句是对所述原始语句进行遮罩处理后得到的,所述文本生成结果包括对所述训练语句中的遮罩部分的预测结果;
[0011]调整模块,用于根据所述原始语句遮罩部分的权重值和所述文本生成结果,确定所述语言模型的损失,根据所述语言模型的损失调整所述语言模型的参数。
[0012]第三方面,本申请提供了一种文本生成方法,包括:
[0013]将目标语句输入到预先训练的语言模型中,以使所述语言模型基于所目标语句进行文本生成,得到文本生成结果;
[0014]所述语言模型的训练过程,包括:
[0015]将原始语句输入到语言模型中,以使所述语言模型对所述原始语句中各词汇的权重进行预测,得到所述原始语句中各词汇的权重值;所述各词汇的权重表示所述原始语句中各词汇所表达的语义的重要程度;将训练语句输入到所述语言模型中,以使所述语言模型基于所述训练语句进行文本生成,得到文本生成结果;其中,所述训练语句是对所述原始语句进行遮罩处理后得到的,所述文本生成结果包括对所述训练语句中的遮罩部分的预测结果;根据所述原始语句遮罩部分的权重值和所述文本生成结果,确定所述语言模型的损失,根据所述语言模型的损失调整所述语言模型的参数。
[0016]第四方面,本申请提供了一种文本生成装置,包括:
[0017]第三输入模块,用于将目标语句输入到预先训练的语言模型中,以使所述语言模型基于所目标语句进行文本生成,得到文本生成结果;
[0018]所述语言模型的训练过程,包括:
[0019]将原始语句输入到语言模型中,以使所述语言模型对所述原始语句中各词汇的权重进行预测,得到所述原始语句中各词汇的权重值;所述各词汇的权重表示所述原始语句中各词汇所表达的语义的重要程度;将训练语句输入到所述语言模型中,以使所述语言模型基于所述训练语句进行文本生成,得到文本生成结果;其中,所述训练语句是对所述原始语句进行遮罩处理后得到的,所述文本生成结果包括对所述训练语句中的遮罩部分的预测结果;根据所述原始语句遮罩部分的权重值和所述文本生成结果,确定所述语言模型的损失,根据所述语言模型的损失调整所述语言模型的参数。
[0020]第五方面,本申请提供了一种电子设备,包括:
[0021]存储器和处理器;
[0022]其中,所述存储器用于存储程序;
[0023]所述处理器,用于通过运行所述存储器中的程序,实现以上任意一项所述的语言模型的训练方法,和/或,以上任一项所述的文本生成方法。
[0024]第六方面,本申请提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现以上任意一项所述的语言模型的训练方法,和/或,以上任一项所述的文本生成方法。
[0025]本申请提出的语言模型的训练方法,能够将原始语句输入到语言模型中,以使语言模型对原始语句中各词汇的权重进行预测,得到原始语句中各词汇的权重值,各词汇的权重表示原始语句中各词汇所表达的语义的重要程度。然后将训练语句输入到语言模型中,以使语言模型基于训练语句进行文本生成,得到文本生成结果,其中,训练语句是对原始语句进行遮罩处理后得到的,文本生成结果包括对训练语句中的遮罩部分的预测结果。根据原始语句遮罩部分的权重值和文本生成结果,确定语言模型的损失,根据语言模型的损失调整语言模型的参数。如此设置,使模型能够区分不同词汇,并自适应地调整每个词汇所表达的语义的重要程度,而不是无差别地计算错误字数,使得语言模型能够真正地理解语义,实现提高预测结果的准确性的目的。
附图说明
[0026]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0027]图1是本申请实施例提供的一种语言模型的训练方法的流程示意图;
[0028]图2是本申请实施例提供的一种语言模型的结构示意图;
[0029]图3是本申请实施例提供的另一种语言模型的训练方法的流程示意图;
[0030]图4是本申请实施例提供的一种文本生成方法的流程示意图;
[0031]图5是本申请实施例提供的一种语言模型的训练装置的结构示意图;
[0032]图6是本申请实施例提供的一种文本生成装置的结构示意图;
[0033]图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0034]本申请实施例技术方案适用于对语言模型进行训练的应用场景,采用本申请实施例技术方案对语言模型进行训练,使语言模型能够区分不同词汇,并自适应地调整每个词汇所表达的语义的重要程度,实现提高预测结果的准确性的目的。
[0035]目前,语言模型的训练方法主要包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法,其特征在于,包括:将原始语句输入到语言模型中,以使所述语言模型对所述原始语句中各词汇的权重进行预测,得到所述原始语句中各词汇的权重值;所述各词汇的权重表示所述原始语句中各词汇所表达的语义的重要程度;将训练语句输入到所述语言模型中,以使所述语言模型基于所述训练语句进行文本生成,得到文本生成结果;其中,所述训练语句是对所述原始语句进行遮罩处理后得到的,所述文本生成结果包括对所述训练语句中的遮罩部分的预测结果;根据所述原始语句遮罩部分的权重值和所述文本生成结果,确定所述语言模型的损失,根据所述语言模型的损失调整所述语言模型的参数。2.根据权利要求1所述的方法,其特征在于,所述将原始语句输入到语言模型中,以使所述语言模型对所述原始语句中各词汇的权重进行预测,得到所述原始语句中各词汇的权重值之前,还包括:将所述原始语句作为训练样本,所述原始语句中各词汇的权重值作为训练标签,对所述语言模型进行权重预测训练。3.根据权利要求1所述的方法,其特征在于,所述根据所述原始语句遮罩部分的权重值和所述文本生成结果,确定所述语言模型的损失,包括:根据所述文本生成结果和所述原始语句遮罩部分的差异,确定所述语言模型的文本生成损失;根据所述文本生成损失和所述原始语句遮罩部分的权重值,确定所述语言模型的损失。4.根据权利要求3所述的方法,其特征在于,所述根据所述文本生成损失和所述原始语句遮罩部分的权重值,确定所述语言模型的损失,包括:计算所述文本生成结果中每个词汇对应的文本生成损失的加权和;所述文本生成结果中每个词汇对应的文本生成损失的权重,与所述遮罩部分相同位置的词汇的权重相同;根据所述加权和,确定所述语言模型的损失。5.根据权利要求4所述的方法,其特征在于,所述根据所述加权和,确定所述语言模型的损失,包括:对所述加权和进行归一化处理,得到所述语言模型的损失。6.根据权利要求5所述的方法,其特征在于,所述对所述加权和进行归一化处理,得到所述语言模型的损失,包括:计算所述加权和与所述文本生成结果中每个词汇对应的文本生成损失的权重和之间的比值,确定所述比值为所述语言模型的损失。7.根据权利要求1所述的方法,其特征在于,还包括:将测试语句输入到所述语言模型中,以使所述语言模型基于所述测试语句进行文本生成,得到文本测试结果;根据所述文本测试结果,确定所述语言模型的训练结果。8.一种语言模型的训练装置,其特征在于,包括:第一输入模块,用于将原始语句输入到语言模型中,以使所述语言模型对所述原始语句中各词汇的权重进行预测,得到所述原始语句中各词汇的权重值;所述各词汇的权重表
示所...

【专利技术属性】
技术研发人员:许光辉杜倩云沙晶胡加学
申请(专利权)人:科大讯飞华南人工智能研究院广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1