解释文本生成模型训练方法、解释文本生成方法及其装置制造方法及图纸

技术编号:39324167 阅读:9 留言:0更新日期:2023-11-12 16:03
本公开的实施例提供了一种解释文本生成模型训练方法、解释文本生成方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法通过对基于数据样例生成的候选解释文本进行进一步优化,同时优化基于信息压缩和信息相关的信息瓶颈目标以及语言建模目标,来从候选解释文本中提炼出与数据样例相关的信息并忽略掉与数据样例不相关的信息,以生成的方式训练模型参数,从而确定能够生成更高质量的解释文本的解释文本生成模型。通过本公开的实施例的方法能够同时优化和完成解释文本去冗余无关信息和保留数据样本相关信息的任务,并且能够在无需任何高质量的解释文本标注的情况下根据解释文本的特性无标注无监督地得到更高质量的解释文本。高质量的解释文本。高质量的解释文本。

【技术实现步骤摘要】
解释文本生成模型训练方法、解释文本生成方法及其装置


[0001]本公开涉及人工智能领域,更具体地,涉及一种解释文本生成模型训练方法、一种解释文本生成方法、及其装置、设备和存储介质。

技术介绍

[0002]在人工智能自然语言处理领城,基于深度学习算法的大规模预训练语言模型(Pretrained Language Model,PLM)可以从海量的训练语料库中学习丰富的语言建模信息,PLM包含的大规模参数存储这些语言建模知识,使得PLM在自然语言处理的多种下游任务上取得了优异的性能。
[0003]然而,如何以人类可读的方式准确地解释深度语言模型的“黑盒特征“背后的决策过程,仍然是一个开放问题,例如,在自然语言处理中的机器人问答领域中,对于“什么天气容易迟到?”这一问题,如何解释答案“下雨天”是合理答案。自然语言处理中的文本解释可以概括为三类:(1)从数据实例中选择的单词、短语或句子;(2)结构明显的组合规则;(3)具有开放式特征的自由文本。其中,自由文本形式的解释更具表达力且通常更具可读性,自然语言处理中的自由文本形式的解释通常被定义为帮助人类理解模型决策原因的流畅的文本描述,以用于帮助用户理解“为什么这个输出被赋予这个输入”。
[0004]因此,为了揭开具有“黑盒模型”属性的神经语言模型的行为的背后原因,需要一种高效且准确的解释文本生成方法,使得可以以人类可读的方式为任何给定数据样例生成自然语言解释文本。

技术实现思路

[0005]为了解决上述问题,本公开通过针对基于数据样例生成的粗糙候选解释文本的进一步优化,提炼出候选解释文本中与数据样例相关的信息,并且忽略了与数据样例不相关的信息,从而生成了更高质量的解释文本。
[0006]本公开的实施例提供了一种解释文本生成模型训练方法、解释文本生成方法、装置、设备和计算机可读存储介质。
[0007]本公开的实施例提供了一种解释文本生成模型训练方法,包括:获取数据样例,并基于所述数据样例获得候选解释文本;基于所述候选解释文本进行信息压缩处理,以确定与所述候选解释文本相对应的信息压缩表示,并基于所述候选解释文本和所述信息压缩表示确定信息压缩损失;基于所述信息压缩表示和所述数据样例之间的信息相关确定信息相关损失;通过对所述信息压缩表示进行解码处理,获得最终解释文本,并基于所述候选解释文本与所述最终解释文本确定语言建模损失;以及基于所述信息压缩损失、所述信息相关损失和所述语言建模损失,确定所述解释文本生成模型。
[0008]本公开的实施例提供了一种解释文本生成方法,获取数据实例;以及基于所述数据实例,通过解释文本生成模型生成最终解释文本;其中,所述解释文本生成模型是根据如上所述的解释文本生成模型训练方法训练得到的。
[0009]本公开的实施例提供了一种解释文本生成模型训练装置,包括:数据获取模块,被配置为获取数据样例,并基于所述数据样例获得候选解释文本;信息压缩模块,被配置为基于所述候选解释文本进行信息压缩处理,以确定与所述候选解释文本相对应的信息压缩表示,并基于所述候选解释文本和所述信息压缩表示确定信息压缩损失;信息相关模块,被配置为基于所述信息压缩表示和所述数据样例之间的信息相关确定信息相关损失;信息解码模块,被配置为通过对所述信息压缩表示进行解码处理,获得最终解释文本,并基于所述候选解释文本与所述最终解释文本确定语言建模损失;以及模型确定模块,被配置为基于所述信息压缩损失、所述信息相关损失和所述语言建模损失,确定所述解释文本生成模型。
[0010]本公开的实施例提供了一种解释文本生成设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的解释文本生成模型训练方法和/或解释文本生成方法。
[0011]本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的解释文本生成模型训练方法和/或解释文本生成方法。
[0012]本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的解释文本生成模型训练方法和/或解释文本生成方法。
[0013]本公开的实施例所提供的方法相比于传统的解释文本生成方法而言,避免了传统有监督训练对于大规模人工标注数据的依赖,无需任何高质量的解释文本,能够无标注无监督地生成更高质量的解释文本,从而解决了人工标注的高成本以及质量难以统一等难题。
[0014]本公开的实施例所提供的方法通过对基于数据样例生成的候选解释文本进行进一步优化,同时优化基于信息压缩和信息相关的信息瓶颈目标以及语言建模目标,来从候选解释文本中提炼出与数据样例相关的信息并忽略掉与数据样例不相关的信息,以生成的方式训练模型参数,从而确定能够生成更高质量的解释文本的解释文本生成模型。通过本公开的实施例的方法能够同时优化和完成解释文本去冗余无关信息和保留数据样本相关信息的任务,并且能够在无需任何高质量的解释文本标注的情况下根据解释文本的特性无标注无监督地得到更高质量的解释文本。
附图说明
[0015]为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0016]图1是示出根据本公开的实施例的对输入的数据样例进行处理并返回解释文本生成结果的场景示意图;
[0017]图2是示出根据本公开的实施例的基于有标注数据集的监督学习的示意图;
[0018]图3是示出根据本公开的实施例的基于预处理语言模型的无监督学习的示意图;
[0019]图4是示出根据本公开的实施例的解释文本生成模型训练方法的流程图;
[0020]图5是示出根据本公开的实施例的解释文本生成模型训练方法的示意性流程框图;
[0021]图6是示出根据本公开的实施例的解释文本生成方法的流程图;
[0022]图7是示出根据本公开的实施例的解释文本生成模型训练装置的示意图;
[0023]图8示出了根据本公开的实施例的解释文本生成设备的示意图;
[0024]图9示出了根据本公开的实施例的示例性计算设备的架构的示意图;以及
[0025]图10示出了根据本公开的实施例的存储介质的示意图。
具体实施方式
[0026]为了使得本公开的目的、技术方案和优点更为明显,下面将参考附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
[0027]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解释文本生成模型训练方法,包括:获取数据样例,并基于所述数据样例获得候选解释文本;基于所述候选解释文本进行信息压缩处理,以确定与所述候选解释文本相对应的信息压缩表示,并基于所述候选解释文本和所述信息压缩表示确定信息压缩损失;基于所述信息压缩表示和所述数据样例之间的信息相关确定信息相关损失;通过对所述信息压缩表示进行解码处理,获得最终解释文本,并基于所述候选解释文本与所述最终解释文本确定语言建模损失;以及基于所述信息压缩损失、所述信息相关损失和所述语言建模损失,确定所述解释文本生成模型。2.如权利要求1所述的方法,其中,所述解释文本生成模型包括与所述信息压缩损失、所述信息相关损失和所述语言建模损失相关的待定参数;其中,基于所述信息压缩损失、所述信息相关损失和所述语言建模损失,确定所述解释文本生成模型包括:基于对所述信息压缩损失、所述信息相关损失和所述语言建模损失的联合优化,确定所述解释文本生成模型的所述待定参数,以确定所述解释文本生成模型。3.如权利要求2所述的方法,其中,基于所述候选解释文本进行信息压缩处理,以确定与所述候选解释文本相对应的信息压缩表示包括:对所述候选解释文本进行编码,以生成候选解释文本向量;对所生成的候选解释文本向量执行向量降维,以生成对应的压缩表示向量。4.如权利要求3所述的方法,其中,所述候选解释文本向量服从解释候选分布,所述压缩表示向量服从所述压缩表示分布;其中,基于所述候选解释文本和所述信息压缩表示确定信息压缩损失包括:基于所述解释候选分布和所述压缩表示分布,确定所述候选解释文本向量和所述压缩表示向量之间的互信息;基于所述候选解释文本向量和所述压缩表示向量之间的互信息,确定所述信息压缩损失,所述信息压缩损失用于度量所述信息压缩表示与所述候选解释文本之间的相关性。5.如权利要求3所述的方法,其中,基于所述信息压缩表示和所述数据样例之间的信息相关确定信息相关损失包括:对所述数据样例进行编码,以生成数据样例向量;以及基于所述压缩表示向量和所述数据样例向量之间的互信息确定信息相关损失,所述信息相关损失用于度量所述信息压缩表示与所述数据样例之间的相关性。6.如权利要求2所述的方法,其中,所述解释文本生成模型包括解释解码器,所述解释解码器用于通过对所述信息压缩表示进行解码处理,获得最终解释文本;其中,基于所述候选解释文本与所述最终解释文本确定语言建模损失包括:基于所述候选解释文本与所述最终解释文本的交叉熵损失,确定所述语言建模损失,所述语言建模损失用于度量所述最终解释文本与所述候选解释文本之间的相似性。7.如权利要求2所述的方法,其中,基于所述信息压缩损失、所述信息相关损失和所述语言建模损失,确定所述解释文本生成模型包括:基于所述信息压缩损失、所述信息相关损失和所述语言建模损失,建立所述解释文本
生成模型的联...

【专利技术属性】
技术研发人员:李沁桐闭玮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1