基于多关系图模型的多模态对话问答生成方法技术

技术编号：36691244 阅读：13 留言：0更新日期：2023-02-27 19:58

基于多关系图模型的多模态对话问答生成方法，涉及一种多模态对话问答生成方法。本发明专利技术为了解决现有的多模态对话系统仅考虑场景序列化信息而导致现有模型效果一般的问题。本发明专利技术首先将视频序列化切分为多个视频片段，对于每个片段获取该片段的色彩特征、光流特征和音频特征，并拼接起来，再加入位置信息和模态信息得到各个视频片段的序列表示；将每个视频片段视作顶点，构建基于全联通关系的视频图并输入图卷积神经网络，得到视频隐藏层序列以及与原视频序列的融合表示；然后利用相似的方式处理基于视听场景标题和对话历史对应的词向量得到各自对应的文本隐藏层序列以及与原文本序列的融合表示；最后利用神经网络模型生成回答。回答。回答。

全部详细技术资料下载

【技术实现步骤摘要】
基于多关系图模型的多模态对话问答生成方法

[0001]本专利技术属于对话问答
，具体涉及一种多模态对话问答生成方法。

技术介绍

[0002]当前对话问答系统领域内研究主要分为文本和多模态两大分支。文本对话问答任务主要具有两大难点：回答生成需要对话上下文推理和欠缺大规模对话数据集。由于预训练语言模型(Language Models，LMs)已经从其它文本数据中习得丰富的语义信息，可以进行一定程度的推理，并且有效弥补对话数据量不足的问题，使系统在低资源背景下仍能取得较好的结果。因此，将预训练语言模型引入对话问答任务可以加深系统对文本的理解，基于历史对话轮次的推理处理当前用户提问，提高生成回答的质量。ISCA2020中，Whang等人在开放域对话中应用预训练语言模型来选择候选回答，其中预训练语言模型的输出(如BERT中的[CLS]标志)被用作每个对话上下文和候选答案对的上下文表示。WNGT2019中，Budzianowski等人假设可以获得真实对话状态，将输入合并为单个序列以生成任务导向型对话的响应。由于对话状态和数据库状态可以视作原始文本输入，可以使用预训练语言模型对系统进行微调。ICASSP2020中，Lai等人引入GPT
‑
2模型，利用模型的输出表示预测插槽值，进而跟踪对话状态。
[0003]ACL2020中，层次指针网络也在文本对话系统中得到了广泛应用。ICLR2019中，Wu等人合并了全局编码器和本地解码器，实现了在任务导向型对话设置中共享外部知识。NAACL2019中，Reddy...

【技术保护点】

【技术特征摘要】
1.一种基于多关系图模型的多模态对话问答生成方法，其特征在于，包括以下步骤：S1、使用固定大小的滑动窗口将视频序列化切分为多个视频片段，对于每个片段，获取该片段的色彩特征和光流特征以及音频特征将色彩特征光流特征和音频特征拼接起来得到再加入位置信息和模态信息得到各个视频片段的序列表示V
t
；表达式为：；表达式为：其中，位置信息中使用数字指代每个视频片段出现的次序，模态信息中使用标识符[video]统一标识视频特征，在实际计算时将其转换成固定维度的向量；S2、针对视听场景表示V＝(V1,V2,...,V
m
)，V1,V2,...,V
m
即为各个视频片段的序列表示，将每个视频片段视作顶点，构建基于全联通关系的视频图其中其中是有向依赖边的集合，对于每条有向依赖边(V
i
,V
j
,l
ij
)，l
ij
表示从V
i
到V
j
的依赖关系，且设置为1；将视频图输入图卷积神经网络，输出视频隐藏层序列G
V
；S3、将视频隐藏层序列G
V
和原视频序列表示V输入线性层得到视频的融合表示并作为后续基于GPT
‑
2架构的多层TRANSFORMER模型的部分输入；S4、基于视听场景标题C和对话历史H得到对应的词向量表示C
feature
和H
feature
；将标题词向量C
feature
和对话历史词向量H
feature
拼接起来，再加入位置信息T
pos
和模态信息T
mod
得到文本序列表示T；表达式为：T
feature
＝[C
feature
,H
feature
],T＝T
feature
+T
mod
+T
pos
,其中，位置信息T
pos
中使用数字指代标题和每个问答对中单词出现的次序，T
pos
中使用标识符[cap]统一标识视听场景标题，标识符[usr1]标识提问者，标识符[usr2]标识回答者，在实际计算时分别将其转换成固定维度的向量；S5、将S4得到的文本序列表示T中的每个词向量视作顶点，构建基于句子级依存关系的图结构和/或基于完整对话共指关系的图结构然后将句子级依存关系的图结构和/或基于完整对话共指关系的图结构分别输入图卷积神经网络，得到各自对应的文本隐藏层序列；S6、将句子级依存关系的图结构和/或基于完整对话共指关系的图结构对应的文本隐藏层序列和原文本序列表示T输入线性层得到文本的融合表示并作为后续基于GPT
‑
2架构的多层TRANSFORMER模型的部分输入；S7、将和拼接获得增强多模态输入，并将增强多模态输入基于GPT
‑
2架构的多层Transformer模型生成回答。2.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法，其特征在于，S5中将S4得到的文本序列表示T中的每个词向量视作顶点构建基于句子级依存关系
的图结构并得到对应的文本隐藏层序列的过程包括以下步骤：首先使用GPT2 Tokenizer获得每个单词对应的词向量表示，使用Stanford CoreNLP文本解析工具分析该句子的句法依存关系，将每个词向量视作顶点，并依据句法依存关系建模图结构；然后输入图卷积神经网络，输出文本隐藏层序列G
D
。3.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法，其特征在于，S5中将S4得到的文本序列表示T中的每个词向量视作顶点，构建基于完整对话共指关系的图结构并得到各自对应的文本隐藏层序列的过程包括以下步骤：首先使用GPT2 Tokenizer获得每个单词对应的词向量表示，使用Stanford CoreNLP文本解析工具分析该句子的共指关系，将每个词向量视作顶点，并依据句子的共指关系建模图结构；然后输入图卷积神经网络，输出文本隐藏层序列G
C
。4.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法，其特征在于，S5中将S4得到的文本序列表示T中的每个词向量视作顶点，构建基于句子级依存关系的图结构和基于完整对话共指关系的图结构并得到各自对应的文本隐藏层序列的过程包括以下步骤：首先使用GPT2 Tokenizer获得每个单词对应的词向量表示，使用Stanford CoreNLP文本解析工具分别分析该句子的句法依存关系和该句子的共指关系，...

【专利技术属性】
技术研发人员：吕姚嘉，朱文轩，刘铭，徐洁馨，李秋霞，秦兵，
申请(专利权)人：招商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人