当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于对比学习区分对话摘要与对话者的方法技术

技术编号:37850047 阅读:11 留言:0更新日期:2023-06-14 22:37
本发明专利技术提供一种基于对比学习区分对话摘要与对话者的方法,其特征在于,首先基于BART构建增强序列到序列的神经网络模型,该神经网络模型的编码器

【技术实现步骤摘要】
一种基于对比学习区分对话摘要与对话者的方法


[0001]本专利技术属于深度学习和自然语言处理领域,具体涉及一种基于对比学习区分对话摘要与对话者的方法。

技术介绍

[0002]随着预训练技术的发展,预训练语言模型(如BART)在诸多自然语言处理生成任务上取得了突出的性能。对于对话摘要任务,多轮对话被拼接为平滑文本输入预训练模型。然而,由于与预训练目标(如BART的降噪生成)的差异,预训练模型处理对话数据的性能并不理想。根据人工统计,在对话摘要数据集SAMsum中,对于多人参与的对话,BART生成的摘要中有50%有事实一致性错误,其中68.4%的事实一致性错误直接与无法识别对话者相关。
[0003]目前对话摘要领域主要有两种技术路线:(1)层级网络,整段对话被分为词、轮、整体等多种粒度被分别编码,这种方法可以捕捉到对话的结构信息,但是无法利用预训练模型的参数;(2)预训练模型,这种方法将对话拼接并视为平整文本,并利用其他方法来辅助摘要的生成,但是这类方法难以捕捉到对话的结构信息,从而难以识别对话中的对话者。而先前也没有增强预训练模型识别对话者的相关工作。

技术实现思路

[0004]为解决上述问题,提供一种区分对话摘要与对话者的方法,本专利技术采用了如下技术方案:
[0005]本专利技术提供了一种基于对比学习区分对话摘要与对话者的方法,其特征在于,包括以下步骤:步骤S1,基于BART构建序列到序列的神经网络模型;步骤S2,将训练用对话输入至神经网络模型以生成训练用对话摘要,并计算训练用对话摘要与目标摘要的交叉熵损失;步骤S3,采用三种对比学习任务辅助神经网络模型对训练用对话进行对话编码,并计算三种对比学习任务的对比学习损失;步骤S4,基于总体训练损失对神经网络模型进行训练直至生成训练好的神经网络模型,将其作为对话者区分模型;步骤S5,将待测对话输入至对话者区分模型获取与待测对话对应的对话摘要。
[0006]本专利技术提供的一种基于对比学习区分对话摘要与对话者的方法,还可以具有这样的技术特征,其中,三种对比学习任务分别为词级别对比学习、轮级别对比学习以及对话者级别对比学习。
[0007]本专利技术提供的一种基于对比学习区分对话摘要与对话者的方法,还可以具有这样的技术特征,其中,词级别对比学习为:神经网络模型在对训练用对话进行编码时拉近训练用对话中的同一对话者的词表示,拉远训练用对话中的不同对话者的词表示,轮级别对比学习为:基于训练用对话获取其中一个对话者的一轮对话,对该轮对话包含的所有词表示取平均得到该轮对话的表示,神经网络模型拉近同一对话者的对话轮的表示,拉远不同对话者的对话轮的表示,对话者级别对比学习为:对训练用对话进行随机采样获取一名对话者以及该对话者的所有轮次对话D,基于所有轮次对话D随机采样获取一轮对话S,将D

S作
为全局样本,S作为正样本,基于训练用对话随机采样另一对话者的对话作为负样本,采用神经网络模型拉近全局样本与正样本的表示,拉远全局样本与负样本的表示。
[0008]本专利技术提供的一种基于对比学习区分对话摘要与对话者的方法,还可以具有这样的技术特征,其中,总体训练损失为交叉熵损失与对比学习损失之和:
[0009]L=L
gen
+λL
ctr
[0010]式中,L为总体训练损失,L
gen
为交叉熵损失,L
ctr
为对比学习损失,λ为调节两项损失函数的超参数。
[0011]专利技术作用与效果
[0012]根据本专利技术的基于对比学习区分对话摘要与对话者的方法,首先,基于BART构建了增强序列到序列的神经网络模型,采用三种对比学习任务辅助该模型根据对话者进行对话编码,并使用这三种对比学习的损失和交叉熵损失对该神经网络模型进行训练,由于对比学习损失函数能够使模型的编码器根据不同的对话者产生不同的编码,因此生成了能够根据对话者来区分对话的对话者区分模型。由于该对话者区分模型能够区分对话者从而生成摘要,因此相较以往的对话区分模型,本专利技术的基于对比学习区分对话摘要与对话者的方法能够更好地理解对话数据,令生成摘要取得了更高的准确率,避免了事实一致性错误。
附图说明
[0013]图1是本专利技术实施例中本专利技术实施例中基于对比学习区分对话摘要与对话者的方法的流程图;
[0014]图2是本专利技术实施例中的基于三种对比学习任务辅助编码的示意图;
[0015]图3是本专利技术实施例中对话者区分模型与现有区分模型的实验结果对比图。
具体实施方式
[0016]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本专利技术的一种基于对比学习区分对话摘要与对话者的方法作具体阐述。
[0017]<实施例>
[0018]图1是本专利技术实施例中基于对比学习区分对话摘要与对话者的方法的流程图。
[0019]如图1所示,基于对比学习区分对话摘要与对话者的方法包括以下步骤:
[0020]步骤S1,基于BART构建序列到序列的神经网络模型。
[0021]本实施例中,该神经网络模型可以是任意序列到序列预训练模型,该预训练模型还可以是PEGASUS。
[0022]步骤S2,将训练用对话输入至神经网络模型以生成训练用对话摘要,并计算训练用对话摘要与目标摘要的交叉熵损失。
[0023]本实施例中,基于该神经网络模型生成训练用对话摘要s计算该摘要s与训练用对话的目标摘要d的交叉熵损失L
gen
,该交叉熵损失为现有技术中常用交叉熵损失函数。
[0024]步骤S3,采用三种对比学习任务辅助神经网络模型对训练用对话进行对话编码,并计算三种对比学习任务的对比学习损失。
[0025]本实施例中,三种对比学习任务分别为词级别对比学习、轮级别对比学习以及对话者级别对比学习。
[0026]图2是本专利技术实施例中的三种基于对比学习任务辅助编码的示意图。
[0027]如图2所示,词级别对比学习(图中Token

level SCL)为:辅助神经网络模型在对训练用对话进行编码时拉近训练用对话中的同一对话者的词表示,拉远训练用对话中的不同对话者的词表示。
[0028]轮级别对比学习(图中Token

level SCL)为:基于训练用对话获取其中一个对话者的一轮对话,对该轮对话包含的所有词表示取平均得到该轮对话的表示,轮级别对比学习辅助神经网络模型拉近同一对话者的对话轮的表示,拉远不同对话者的对话轮的表示。
[0029]对话者级别对比学习(图中Global

level SCL)为:对训练用对话进行随机采样获取一名对话者以及该对话者的所有轮次对话D,基于所有轮次对话D随机采样获取一轮对话S,将D

S作为全局样本,S作为正样本,基于训练用对话随机采样另一对话者的对话作为负样本,辅助神经网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习区分对话摘要与对话者的方法,其特征在于,包括以下步骤:步骤S1,基于BART构建序列到序列的神经网络模型;步骤S2,将训练用对话输入至所述神经网络模型以生成训练用对话摘要,并计算所述训练用对话摘要与目标摘要的交叉熵损失;步骤S3,采用三种对比学习任务辅助所述神经网络模型对所述训练用对话进行对话编码,并计算所述三种对比学习任务的对比学习损失;步骤S4,基于总体训练损失对所述神经网络模型进行训练直至生成训练好的神经网络模型,将其作为对话者区分模型;步骤S5,将待测对话输入至所述对话者区分模型获取与所述待测对话对应的对话摘要。2.根据权利要求1所述的一种基于对比学习区分对话摘要与对话者的方法,其特征在于:其中,所述三种对比学习任务分别为词级别对比学习、轮级别对比学习以及对话者级别对比学习。3.根据权利要求2所述的一种基于对比学习区分对话摘要与对话者的方法,其特征在于:其中,所述词级别对比学习为:所述神经网络模型在对所述训练用对话进行编码时拉近所述训练用对话中的同一对话者的词表示,拉远所述训练用对话中的不同对话者的词表示,所述轮级...

【专利技术属性】
技术研发人员:邱锡鹏耿志超周雅倩
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1