多方对话语篇解析作为序列生成的方法和装置制造方法及图纸

技术编号:42793007 阅读:16 留言:0更新日期:2024-09-21 00:49
一种由至少一个处理器执行的方法,包括检索包括多个语音话语的对话历史,每个语音话语包括一个或多个字。该方法还包括对多个语音话语进行编码,使得每个语音话语与指示对话历史中的每个语音话语的顺序的序列标识符相关联。该方法还包括对已编码的多个语音话语进行解码以生成对应于对话历史的至少一个语篇关系三元组,该至少一个语篇关系三元组包括来自多个语音话语的第一语音话语的第一序列标识符、来自多个语音话语的第二语音话语的第二序列标识符、以及对话语篇类型。

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及多方对话语篇,更具体地涉及多方对话语篇作为序列生成的方法和装置。


技术介绍

1、会话语篇分析旨在提取对话轮次(dialogue turn)之间的互动,这对于复杂的多方对话建模至关重要。由于衡量基准的规模大小仍然有限,并且人工标注的成本很高,因此当前的标准方法虽然应用预先训练的语言模型,但是仍然需要随机初始化的分类器来进行预测。这些分类器需要大量数据才能与预训练的编码器顺利配合,从而导致严重的数据饥饿问题。

2、近年来,人们对通常涉及两个或更多说话者的对话建模的兴趣激增。对于多方对话,对话语篇解析(discourse parsing)的任务是发现每对对话话语(如对话轮次)之间的相互关系。因为涉及多个说话者,增加了对话流程的复杂性,因此对话语篇解析至关重要。最近的研究在各种nlp任务中使用预训练语言模型(language model,lm)。然而,预训练的语言模型需要大量的数据,而性能增益很小。本文提出了一些改进来缓解这些问题。


技术实现思路

1、下面给出了本公开的一个或多个实施例的简本文档来自技高网...

【技术保护点】

1.一种方法,由至少一个处理器执行,所述方法包括:

2.根据权利要求1所述的方法,其中,所述第二语音话语发生在所述第一语音话语之后,使得所述第二语音话语是对所述第一语音话语的响应。

3.根据权利要求2所述的方法,其中,执行所述对已编码的多个语音话语进行解码,使得所述第二语音话语是所述对话历史中的最后一个语音话语。

4.根据权利要求1所述的方法,其中,执行所述对已编码的多个语音话语进行解码,使得对所述多个语音话语中包含的每个语音话语生成语篇关系三元组。

5.根据权利要求1所述的方法,还包括:

6.根据权利要求1所述的方法,其中,所...

【技术特征摘要】
【国外来华专利技术】

1.一种方法,由至少一个处理器执行,所述方法包括:

2.根据权利要求1所述的方法,其中,所述第二语音话语发生在所述第一语音话语之后,使得所述第二语音话语是对所述第一语音话语的响应。

3.根据权利要求2所述的方法,其中,执行所述对已编码的多个语音话语进行解码,使得所述第二语音话语是所述对话历史中的最后一个语音话语。

4.根据权利要求1所述的方法,其中,执行所述对已编码的多个语音话语进行解码,使得对所述多个语音话语中包含的每个语音话语生成语篇关系三元组。

5.根据权利要求1所述的方法,还包括:

6.根据权利要求1所述的方法,其中,所述语篇类型选自问题答案对、问题阐述和确认中的一个。

7.根据权利要求1所述的方法,其中,所述编码器是t5编码器,所述解码器是t5解码器。

8.根据权利要求1所述的方法,其中,所述对话历史包括至少三个或更多个说话者。

9.一种装置,包括:

10.根据权利要求9所述的装置,其中,所述第二语音话语发生在所述第一语音话语之后,使得所述第二语音话语是对所述第一语音话语的响应。

11.根据权利要求10所述的装置,其中,所述解码代码还被配置为使得所述至少一个处理器对已编码的多个语音话语进行解码,使得所述第二语音话语是所述对话历史中的最后一个语音话语。

【专利技术属性】
技术研发人员:宋林峰
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1