基于多关系图模型的多模态对话问答生成方法技术

技术编号:36691244 阅读:13 留言:0更新日期:2023-02-27 19:58
基于多关系图模型的多模态对话问答生成方法,涉及一种多模态对话问答生成方法。本发明专利技术为了解决现有的多模态对话系统仅考虑场景序列化信息而导致现有模型效果一般的问题。本发明专利技术首先将视频序列化切分为多个视频片段,对于每个片段获取该片段的色彩特征、光流特征和音频特征,并拼接起来,再加入位置信息和模态信息得到各个视频片段的序列表示;将每个视频片段视作顶点,构建基于全联通关系的视频图并输入图卷积神经网络,得到视频隐藏层序列以及与原视频序列的融合表示;然后利用相似的方式处理基于视听场景标题和对话历史对应的词向量得到各自对应的文本隐藏层序列以及与原文本序列的融合表示;最后利用神经网络模型生成回答。回答。回答。

【技术实现步骤摘要】
基于多关系图模型的多模态对话问答生成方法


[0001]本专利技术属于对话问答
,具体涉及一种多模态对话问答生成方法。

技术介绍

[0002]当前对话问答系统领域内研究主要分为文本和多模态两大分支。文本对话问答任务主要具有两大难点:回答生成需要对话上下文推理和欠缺大规模对话数据集。由于预训练语言模型(Language Models,LMs)已经从其它文本数据中习得丰富的语义信息,可以进行一定程度的推理,并且有效弥补对话数据量不足的问题,使系统在低资源背景下仍能取得较好的结果。因此,将预训练语言模型引入对话问答任务可以加深系统对文本的理解,基于历史对话轮次的推理处理当前用户提问,提高生成回答的质量。ISCA2020中,Whang等人在开放域对话中应用预训练语言模型来选择候选回答,其中预训练语言模型的输出(如BERT中的[CLS]标志)被用作每个对话上下文和候选答案对的上下文表示。WNGT2019中,Budzianowski等人假设可以获得真实对话状态,将输入合并为单个序列以生成任务导向型对话的响应。由于对话状态和数据库状态可以视作原始文本输入,可以使用预训练语言模型对系统进行微调。ICASSP2020中,Lai等人引入GPT

2模型,利用模型的输出表示预测插槽值,进而跟踪对话状态。
[0003]ACL2020中,层次指针网络也在文本对话系统中得到了广泛应用。ICLR2019中,Wu等人合并了全局编码器和本地解码器,实现了在任务导向型对话设置中共享外部知识。NAACL2019中,Reddy等人面向任务导向型对话设计了一个多级存储的框架。ACL2019中,Tian等人探索了如何在训练过程中提取有价值的信息,并以此搭建了一个记忆启动架构。此外,多任务学习也被证明可以优化自然语言回答的表现。ACL2019中Chen等人的工作中,工作记忆被引入该任务,通过与两个长期记忆充分交互,它可以捕获对话历史和知识库的元组以生成高质量回答。EMNLP2019中,Lin等人鉴于异构记忆网络具有同时利用话上下文、用户提问和知识库信息的能力,也将其应用于该领域的研究。
[0004]多模态对话问答为实现功能强大的对话系统开创了新的格局。当前研究主要聚焦于如何利用静态图像和文本之间多粒度互补信息弥合语言和视觉的差距,例如CVPR2017中,Das等人提出的视觉对话(Visual Dialog)任务提供了图片及与之相关的多轮对话,要求模型可以根据给定的图像和对话历史,用自然语言正确回答提问者相关的问题。尽管该任务在推进多模态对话问答系统的发展进程上具有重大意义,但根据静态图像的对话存在一定固有的限制,它很大程度上限制了问答系统对时空变化的动态感知能力,使之无法合理应对许多需要理解特定场景上下文以作出合理推断的应用。因此,为提升问答系统对时空智能性,引入一个新任务——视听场景感知对话(Audio

Visual Scene

Aware Dialog,AVSD),它可以看作视觉对话的一般形式,即基于连续图片帧和音频信息的视觉对话,相较于视觉对话有更广泛的应用前景。然而,现有方案主要使用独立编码器对不同模态分别进行编码,然后利用注意力机制融合其表示并生成响应语句。这种后期融合的方案只考虑了场景和对话的序列化特征,且忽视了不同模态间多粒度语义互补关系,导致现有模型的效
果并不尽如人意。因此,探索对话场景的语义信息表示和模态融合方式对实现更高性能的多模态对话问答系统具有重要意义。
[0005]与此同时,多模态对话领域相关研究的重心正在向如何充分融合多源异构信息偏移,包括图像、音频、视频和文本等。相较于文本对话问答,多模态对话问答任务额外引入了对话相关的音视频特征,因而需要解决不同模态间的细粒度交互问题。
[0006]注意力机制是该领域的主流研究方法,它可以缩小视觉和语言模态表示间的差距。CVPR2018中,Wu等人设计的CoAtt模型包含一个序列化的共同注意力机制的编码器,使得每个输入特征由其它两个特征以序列化的方式共同提供。ACL2019中Gan等人提出的ReDAN模型和AAAI2020中Chen等人提出的DMRM模型通过基于双注意力机制的多步推理来回答图像相关的一系列问题。ECCV2020中,Nguyen等人设计的LTMI模型利用多头注意力机制关注模态的交互关系。
[0007]基于注意力机制实现的Transformer架构的预训练语言模型体系结构也在学习视觉

文本自然语言处理任务的跨模态表示上表现良好。在图像描述任务中,AAAI2020中Li等人构造基于BERT的架构改善文本和视觉表示,NIPS2019中,Lu等人使用相似的方法应对视觉问答任务,和前者区别在于在处理多模态输入时,将视觉和文本表示分开而非合并为整个序列。IJCNLP2019中,Alberti等人关注到前期融合或后期融合的方法对于丰富跨模态表示的重要作用。ICCV2019中,Sun等人提出VideoBERT模型,它利用BERT模型生成视频描述,并舍弃了用视觉特征代表视频帧的方法,转而将框架级的特征转化为视觉标记作为模型的原始输入。
[0008]近期研究还探索了图片或对话历史的更高级语义表示,尤其是基于图结构对图片或对话历史的建模方式。AAAI2020中,Jiang等人提出的DualVD模型从视觉和语义两个角度详细描述图片的特征,具体而言,视觉图模型帮助提取包括实体和关系在内的表面信息,语义图模型推进对话问答系统从全局到局部视觉语义理解的转变。CVPR2020中,Guo等人设计的CAG模型以实体相关的视觉表示和历史相关的上下文表示建立图结点,以自适应的Top

K信息传递机制更新相应的边权,建立视觉

语义相关的动态图用于后续推理。ACL2021中,Chen等人提出的GoG模型考虑到不同关系之间同样具有交互,因此建模了基于对话历史的当前提问依存关系图和基于当前提问的物体(区域)关系图。

技术实现思路

[0009]本专利技术的目的是为了解决现有的多模态对话系统仅考虑场景序列化信息而导致现有模型效果一般的问题,进而提出一种基于多关系图模型的多模态对话问答生成方法。
[0010]一种基于多关系图模型的多模态对话问答生成方法,包括以下步骤:
[0011]S1、使用固定大小的滑动窗口将视频序列化切分为多个视频片段,对于每个片段,获取该片段的色彩特征和光流特征以及音频特征
[0012]将色彩特征光流特征和音频特征拼接起来得到再加入位置信息和模态信息得到各个视频片段的序列表示V
t
;表达式为:
[0013]CoreNLP文本解析工具分析该句子的共指关系,将每个词向量视作顶点,并依据句子的共指关系建模图结构;然后输入图卷积神经网络,输出文本隐藏层序列G
C

[0032]或者,
[0033]S5中将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构和基于完本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多关系图模型的多模态对话问答生成方法,其特征在于,包括以下步骤:S1、使用固定大小的滑动窗口将视频序列化切分为多个视频片段,对于每个片段,获取该片段的色彩特征和光流特征以及音频特征将色彩特征光流特征和音频特征拼接起来得到再加入位置信息和模态信息得到各个视频片段的序列表示V
t
;表达式为:;表达式为:其中,位置信息中使用数字指代每个视频片段出现的次序,模态信息中使用标识符[video]统一标识视频特征,在实际计算时将其转换成固定维度的向量;S2、针对视听场景表示V=(V1,V2,...,V
m
),V1,V2,...,V
m
即为各个视频片段的序列表示,将每个视频片段视作顶点,构建基于全联通关系的视频图其中其中是有向依赖边的集合,对于每条有向依赖边(V
i
,V
j
,l
ij
),l
ij
表示从V
i
到V
j
的依赖关系,且设置为1;将视频图输入图卷积神经网络,输出视频隐藏层序列G
V
;S3、将视频隐藏层序列G
V
和原视频序列表示V输入线性层得到视频的融合表示并作为后续基于GPT

2架构的多层TRANSFORMER模型的部分输入;S4、基于视听场景标题C和对话历史H得到对应的词向量表示C
feature
和H
feature
;将标题词向量C
feature
和对话历史词向量H
feature
拼接起来,再加入位置信息T
pos
和模态信息T
mod
得到文本序列表示T;表达式为:T
feature
=[C
feature
,H
feature
],T=T
feature
+T
mod
+T
pos
,其中,位置信息T
pos
中使用数字指代标题和每个问答对中单词出现的次序,T
pos
中使用标识符[cap]统一标识视听场景标题,标识符[usr1]标识提问者,标识符[usr2]标识回答者,在实际计算时分别将其转换成固定维度的向量;S5、将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构和/或基于完整对话共指关系的图结构然后将句子级依存关系的图结构和/或基于完整对话共指关系的图结构分别输入图卷积神经网络,得到各自对应的文本隐藏层序列;S6、将句子级依存关系的图结构和/或基于完整对话共指关系的图结构对应的文本隐藏层序列和原文本序列表示T输入线性层得到文本的融合表示并作为后续基于GPT

2架构的多层TRANSFORMER模型的部分输入;S7、将和拼接获得增强多模态输入,并将增强多模态输入基于GPT

2架构的多层Transformer模型生成回答。2.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S5中将S4得到的文本序列表示T中的每个词向量视作顶点构建基于句子级依存关系
的图结构并得到对应的文本隐藏层序列的过程包括以下步骤:首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分析该句子的句法依存关系,将每个词向量视作顶点,并依据句法依存关系建模图结构;然后输入图卷积神经网络,输出文本隐藏层序列G
D
。3.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S5中将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于完整对话共指关系的图结构并得到各自对应的文本隐藏层序列的过程包括以下步骤:首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分析该句子的共指关系,将每个词向量视作顶点,并依据句子的共指关系建模图结构;然后输入图卷积神经网络,输出文本隐藏层序列G
C
。4.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S5中将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构和基于完整对话共指关系的图结构并得到各自对应的文本隐藏层序列的过程包括以下步骤:首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分别分析该句子的句法依存关系和该句子的共指关系,...

【专利技术属性】
技术研发人员:吕姚嘉朱文轩刘铭徐洁馨李秋霞秦兵
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1