解释文本生成模型训练方法、解释文本生成方法及其装置制造方法及图纸

技术编号：39324167 阅读：9 留言：0更新日期：2023-11-12 16:03

本公开的实施例提供了一种解释文本生成模型训练方法、解释文本生成方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法通过对基于数据样例生成的候选解释文本进行进一步优化，同时优化基于信息压缩和信息相关的信息瓶颈目标以及语言建模目标，来从候选解释文本中提炼出与数据样例相关的信息并忽略掉与数据样例不相关的信息，以生成的方式训练模型参数，从而确定能够生成更高质量的解释文本的解释文本生成模型。通过本公开的实施例的方法能够同时优化和完成解释文本去冗余无关信息和保留数据样本相关信息的任务，并且能够在无需任何高质量的解释文本标注的情况下根据解释文本的特性无标注无监督地得到更高质量的解释文本。高质量的解释文本。高质量的解释文本。

全部详细技术资料下载

【技术实现步骤摘要】
解释文本生成模型训练方法、解释文本生成方法及其装置

[0001]本公开涉及人工智能领域，更具体地，涉及一种解释文本生成模型训练方法、一种解释文本生成方法、及其装置、设备和存储介质。

技术介绍

[0002]在人工智能自然语言处理领城，基于深度学习算法的大规模预训练语言模型(Pretrained Language Model，PLM)可以从海量的训练语料库中学习丰富的语言建模信息，PLM包含的大规模参数存储这些语言建模知识，使得PLM在自然语言处理的多种下游任务上取得了优异的性能。
[0003]然而，如何以人类可读的方式准确地解释深度语言模型的“黑盒特征“背后的决策过程，仍然是一个开放问题，例如，在自然语言处理中的机器人问答领域中，对于“什么天气容易迟到？”这一问题，如何解释答案“下雨天”是合理答案。自然语言处理中的文本解释可以概括为三类：(1)从数据实例中选择的单词、短语或句子；(2)结构明显的组合规则；(3)具有开放式特征的自由文本。其中，自由文本形式的解释更具表达力且通常更具可读性，自然语言处理中的自由文本形式的解释通常被定义为帮助人类理解模型决策原因的流畅的文本描述，以用于帮助用户理解“为什么这个输出被赋予这个输入”。
[0004]因此，为了揭开具有“黑盒模型”属性的神经语言模型的行为的背后原因，需要一种高效且准确的解释文本生成方法，使得可以以人类可读的方式为任何给定数据样例生成自然语言解释文本。

技术实现思路

[0005]为了解决上述问题，本公开通过针对基于数据样例生成的粗糙候选...

【技术保护点】

【技术特征摘要】
1.一种解释文本生成模型训练方法，包括：获取数据样例，并基于所述数据样例获得候选解释文本；基于所述候选解释文本进行信息压缩处理，以确定与所述候选解释文本相对应的信息压缩表示，并基于所述候选解释文本和所述信息压缩表示确定信息压缩损失；基于所述信息压缩表示和所述数据样例之间的信息相关确定信息相关损失；通过对所述信息压缩表示进行解码处理，获得最终解释文本，并基于所述候选解释文本与所述最终解释文本确定语言建模损失；以及基于所述信息压缩损失、所述信息相关损失和所述语言建模损失，确定所述解释文本生成模型。2.如权利要求1所述的方法，其中，所述解释文本生成模型包括与所述信息压缩损失、所述信息相关损失和所述语言建模损失相关的待定参数；其中，基于所述信息压缩损失、所述信息相关损失和所述语言建模损失，确定所述解释文本生成模型包括：基于对所述信息压缩损失、所述信息相关损失和所述语言建模损失的联合优化，确定所述解释文本生成模型的所述待定参数，以确定所述解释文本生成模型。3.如权利要求2所述的方法，其中，基于所述候选解释文本进行信息压缩处理，以确定与所述候选解释文本相对应的信息压缩表示包括：对所述候选解释文本进行编码，以生成候选解释文本向量；对所生成的候选解释文本向量执行向量降维，以生成对应的压缩表示向量。4.如权利要求3所述的方法，其中，所述候选解释文本向量服从解释候选分布，所述压缩表示向量服从所述压缩表示分布；其中，基于所述候选解释文本和所述信息压缩表示确定信息压缩损失包括：基于所述解释候选分布和所述压缩表示分布，确定所述候选解释文本向量和所述压缩表示向量之间的互信息；基于所述候选解释文本向量和所述压缩表示向量之间的互信息，确定所述信息压缩损失，所述信息压缩损失用于度量所述信息压缩表示与所述候选解释文本之间的相关性。5.如权利要求3所述的方法，其中，基于所述信息压缩表示和所述数据样例之间的信息相关确定信息相关损失包括：对所述数据样例进行编码，以生成数据样例向量；以及基于所述压缩表示向量和所述数据样例向量之间的互信息确定信息相关损失，所述信息相关损失用于度量所述信息压缩表示与所述数据样例之间的相关性。6.如权利要求2所述的方法，其中，所述解释文本生成模型包括解释解码器，所述解释解码器用于通过对所述信息压缩表示进行解码处理，获得最终解释文本；其中，基于所述候选解释文本与所述最终解释文本确定语言建模损失包括：基于所述候选解释文本与所述最终解释文本的交叉熵损失，确定所述语言建模损失，所述语言建模损失用于度量所述最终解释文本与所述候选解释文本之间的相似性。7.如权利要求2所述的方法，其中，基于所述信息压缩损失、所述信息相关损失和所述语言建模损失，确定所述解释文本生成模型包括：基于所述信息压缩损失、所述信息相关损失和所述语言建模损失，建立所述解释文本
生成模型的联...

【专利技术属性】
技术研发人员：李沁桐，闭玮，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人