文本生成方法及电子设备技术

技术编号:37344322 阅读:13 留言:0更新日期:2023-04-22 21:36
本公开涉及文本生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。该方法包括:获取经训练的并行生成模型,其中经训练的并行生成模型包括编码器和解码器,在训练过程中解码器包括多步学习,多步学习中的第一步学习的学习目标对应第一数目的输出模式,在第一步学习之后的第二步学习的学习目标对应第二数目的输出模式,第一数目不大于第二数目;以及将输入文本输入到经训练的并行生成模型中,得到输出文本。以此,本公开实施例能够基于输入文本通过使用并行生成模型得到输出文本,相比于自左向右模型,文本生成速度更快。并且由于在训练过程中的多步学习可以从少到多地学习到多种输出模式,从而模型所生成的输出文本更加准确。本更加准确。本更加准确。

【技术实现步骤摘要】
文本生成方法及电子设备


[0001]本公开总体上涉及计算机领域,并且更具体地涉及文本生成方法及电子设备。

技术介绍

[0002]可以借助于人工智能技术,通过文本生成模型生成需要的文本。一般地,可以将文本作为离散序列,通过自左向右的方式得到。例如,以机器学习为例,可以自左向右地逐个生成词(或字),从而生成整个句子。
[0003]但是,自左向右生成模型中,由于需要等待上一个词(或字)生成结束之后再生成下一个词(或字),因此生成效率低。另外,在生成下一个词(或字)时只能依赖于已经生成的左边的词(或字),这样导致在文本生成时只能利用已生成的词的局部信息。

技术实现思路

[0004]根据本公开的示例实施例,提供了一种基于并行生成模型的文本生成方案。
[0005]在本公开的第一方面,提供了一种文本生成方法,包括:获取经训练的并行生成模型,其中经训练的并行生成模型包括编码器和解码器,在训练过程中解码器包括多步学习,多步学习中的第一步学习的学习目标对应第一数目的输出模式,多步学习中在第一步学习之后的第二步学习的学习目标对应第二数目的输出模式,并且第一数目不大于第二数目;以及将输入文本输入到经训练的并行生成模型中,得到输出文本。
[0006]在本公开的第二方面,提供了一种电子设备,包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,该指令当由至少一个处理单元执行时使得电子设备执行根据本公开的第一方面所描述的方法。
[0007]在本公开的第三方面,提供了一种计算机可读存储介质,该计算机可读存储介质具有在其上存储的机器可执行指令,该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。
[0008]在本公开的第四方面,提供了一种计算机程序产品,包括计算机可执行指令,其中计算机可执行指令在被处理器执行时实现根据本公开的第一方面所描述的方法。
[0009]在本公开的第五方面,提供了一种电子设备,包括:处理电路,被配置为执行根据本公开的第一方面所描述的方法。
[0010]提供
技术实现思路
部分是为了以简化的形式来介绍一系列概念,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分不旨在标识本公开的关键特征或必要特征,也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0011]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
[0012]图1示出了根据本公开的一些实施例的模型训练的过程的流程图;
[0013]图2示出了根据本公开的一些实施例的并行生成模型的示意图;
[0014]图3示出了根据本公开的一些实施例的在模型训练过程中的中间学习目标的示意图;
[0015]图4示出了根据本公开的一些实施例的在模型训练过程中的中间步学习采样的示意图;
[0016]图5示出了根据本公开的一些实施例的文本生成的过程的流程图;
[0017]图6示出了根据本公开的一些实施例的示例装置的框图;以及
[0018]图7示出了可以用来实施本公开的实施例的示例设备的框图。
具体实施方式
[0019]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0020]如前所述,自左向右的文本生成模型具有诸多缺陷,有鉴于此,已经提出了并行生成模型,从而可以直接生成完整的序列。并行生成模型一般包括迭代模型和非迭代模型。非迭代模型可以一次直接生成整个序列。与自左向右模型相比,并行生成模型具有更快的生成速度。但是,并行生成模型的生成质量却没有优势。造成并行生成模型生成质量差的一个重要原因是每一个输入对应的输出结果可能存在多个,由于并行生成模型不依赖于左侧的词(或字),因此可能导致输出错误结果。例如,“专利技术”和“创造”是正确的,但是“发造”却是错误的。也就是说,正确的多个输出结果的任意序列组合可能会产生错误。
[0021]为了缓解因一个输入对应多个输出所引起的问题,可以使用迭代模型通过多轮迭代,从而并行生成整个序列,其中每轮迭代都基于前一轮迭代的结果继续修改。具体地在迭代模型的训练过程中,可以将序列通过替换、删除等操作进行修改,然后模型可以通过学习如何基于改变后的序列还原成目标输出。一方面,由于迭代模型始终学习目标输出,因此一个输入对应多个输出所引起的问题仍然存在。另一方面,迭代模型需要进行多轮迭代才能生成文本,导致生成速度较慢。
[0022]为了解决上述问题以及潜在的其他问题,本公开的实施例提供了一种基于模式分解的并行生成模型。通过该并行生成模型能够基于输入文本得到输出文本。一方面,该并行生成模型不需要多轮迭代且并行得到完整的文本序列,因此生成文本的速度较快。另一方面,该并行生成模型通过在中间输出考虑不同于目标输出的其他学习目标,进而能够解决一个输入对应多个输出所引起的问题。
[0023]可理解的是,本公开的实施例能够被应用于各种文本生成的场景。具体而言,本公开实施例中的文本生成模型可以基于输入文本得到输出文本。输入文本和输出文本可以属于同一语种或不同语种。在一些示例中,本公开实施例的方案能够被用于机器翻译场景,输入文本和输出文本可以属于不同语种。例如输入文本为中文,输出文本为英文。再例如输入文本为英文,输出文本为法文。在一些示例中,本公开的实施例的方案能够被用于文章生成场景。例如输入文本为若干关键词,输出文本为一段话。再例如输入文本为一篇文章,输出
文本为一篇摘要。在一些示例中,本公开的实施例的方案能够被用于蛋白质序列建模场景。例如输入文本为蛋白质序列的一部分,输出文本为完整的蛋白质序列。应注意的是,这里列出的部分场景仅是示意,本公开的实施例也可以被应用于其他的文本生成的场景,此处不再一一罗列。为了简化描述,下文的主要实施例以机器翻译场景为例进行阐述。
[0024]本公开的实施例中,术语“文本”也可以被称为文本序列、离散序列等,其可以包括多个词、字符等所组成的序列。
[0025]图1示出了根据本公开的一些实施例的模型训练的过程100的示意流程图。在框110,构建训练数据集,训练数据集可以包括多个数据项,每个数据项可以包括输入数据和输出数据。在框120,基于训练数据集生成经训练的并行生成模型。
[0026]在一些实施例中,训练数据集可以基于已有的数据构建,或者可以基于已有的其他模型构建。举例而言,在机器翻译的场景中,可以基于已有的人工翻译的数据来构建训练数据集;或者可以基于例如自左向右文本生成模型来构建训练数据集;或者可以通过两者的结合来构建训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,包括:获取经训练的并行生成模型,其中所述经训练的并行生成模型包括编码器和解码器,在训练过程中所述解码器包括多步学习,所述多步学习中的第一步学习的学习目标对应第一数目的输出模式,所述多步学习中在所述第一步学习之后的第二步学习的学习目标对应第二数目的输出模式,并且所述第一数目不大于所述第二数目;以及将输入文本输入到所述经训练的并行生成模型中,得到输出文本。2.根据权利要求1所述的方法,还包括:构建训练数据集,所述训练数据集包括多个数据项,所述多个数据项中的每个数据项包括输入数据和输出数据;以及基于所述训练数据集生成所述经训练的并行生成模型。3.根据权利要求2所述的方法,还包括在所述训练过程中,针对每个数据项:将所述输入数据输入到所述编码器以得到输入向量;以及将所述输入向量输入到所述解码器,其中所述解码器的所述第一步学习的学习目标是基于所述第一步学习的下一步学习的中间输出以及所述输出数据被确定的。4.根据权利要求3所述的方法,其中所述第一步学习的学习目标通过下式方式得到:确定所述第一步学习的下一步学习的中间输出的第一概率分布;确定所述第一概率分布与所述输出数据之间的第一乘积;确定所述输出数据与所述第一步学习的中间输出之间的逐元素相乘的第二乘积;基于所述第一概率分布、所述第一乘积和所述第二乘积来确定所述第一步学习的目标概率分布;以及基于所述第一步学习的目标概率分布,确定所述第一步学习的学习目标。5.根据权利要求4所述的方法,其中所述输出数据与所述第一步学习的中间输出都被表示为独热编码形式。6.根据权利要求1所述的方法,其中所述训练过程的训练目标包括所述多步学习中各步学习的训练目标之和,其中所述各步学习的训练目标基于所述各步学习的学习目标被确定。7.根据权利要求1所述的方法,其中在所述训练过程中,所述第一步学习的中间输出被作为所述第一步学习的下一步学习的中间输入。8.根据权利要求1所述的方法,其中在所述训练过程中,所述第一步学习的下一步学习的中间输入通过下式方式得到:通过将所述第一步学习的中间输出与所述第一步的下一步的学习目...

【专利技术属性】
技术研发人员:钱利华周浩王明轩
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1