一种视觉常识推理问答题的答题模型生成方法和系统技术方案

技术编号:25690845 阅读:54 留言:0更新日期:2020-09-18 21:02
本发明专利技术提出一种视觉常识推理问答题答题模型的生成方法和系统,该方法包括:S1、语料预处理,为询问和响应生成文本语义向量,为图像生成图像目标特征向量。S2、融合文本语义向量与图像目标特征向量。S3、响应建模,获得每个候选响应的向量表示r

【技术实现步骤摘要】
一种视觉常识推理问答题的答题模型生成方法和系统
本专利技术属于自然语言处理与计算机视觉的交叉技术应用领域,尤其涉及一种视觉常识推理问答题的答题模型生成方法和系统。
技术介绍
图像理解是人类与生俱来的一种认知世界的能力,随着人工智能前沿技术的发展,越来越多的学者希望机器能够具备这样的图像理解能力。视觉常识推理问答作为一项测试机器多模态表示学习推理的任务,其能够很好的衡量和检验机器的图像理解水平,在图像检索、社交媒体、电子商务等领域有着广泛的潜在应用,所以对视觉常识推理问答的研究有着十分重大的意义。视觉常识推理问答与已有的视觉问答任务形式比较相似,输入都为一张图像以及与这张图像相关的自然语言描述的问题,需要机器正确地给出相应的答案。但是视觉常识推理问答中给出的图像和问题内容更加复杂抽象,需要机器充分地理解图像内容与文本语义,甚至需要更高阶的认知和关于世界的常识推理才能回答该问题。如图1所示,视觉常识推理任务为:给定一张图像(image)以及一个问题(question),需要从4个候选答案(answer)中选出正确的一个,除了选出答案,还需要机器从给出的4个候选理由(rationale)中挑选出正确的理由来解释其选择的答案。Q代表问题,A0-3代表4个候选答案,R0-3代表4个候选理由。视觉常识推理任务(VCR任务)需要机器先选择出正确的答案,然后再选择出正确的理由。所以VCR总体任务(Q→AR)可以分解为答案选择(Q→A)和答案验证(QA→R)两个子任务。我们将这两个子任务统一在同一个模型框架中,不同的子任务使用不同的训练数据来训练模型,所以最终可以得到Q→A模型和QA→R模型两个模型。测试阶段我们利用Q→A模型选出答案,然后将问题和答案拼接起来输入到QA→R模型中选择出正确的理由。因为这两个子任务是在同一个模型框架中来做的,区别只是输入训练数据不同,为了叙述方便,在Q→A过程,我们将Q作为询问(query),A作为响应(response);QA→R将Q和A拼接起来作为询问(query),R作为响应(response)。科研工作者针对先前的视觉问答任务已有充分的研究,基本的模型框架为:使用预训练好的卷积神经网络如ResNet提取图像特征向量,循环神经网络如LSTM提取问题文本语义特征向量,通过图像语义与问题文本语义的特征融合来实现两种特征语义间的交互,并最终提升模型对答案的推理能力。众所周知,人类之所以能够根据图像来回答相关问题,其不仅通过图像获取相关信息,还依赖于一些世界常识和知识。然而,之前的视觉问答模型却忽略了这些至关重要的因素,没有充分利用这些知识来辅助机器完成推理问答过程。具体来说,视觉常识推理问答中存在下述问题:1)不能很好地表示图像特征和文本语义的问题;2)普通的深度学习方法没有考虑响应文本中蕴含的额外信息来辅助我们理解图像的问题;3)现有的方法并未考虑响应之间的关联和关系的问题。
技术实现思路
为了解决上述问题,本专利技术提供一种视觉常识推理问答题的答题模型生成方法和系统。本专利技术的技术方案总体思想为:首先,利用预训练语言模型Bert-base获取每个询问和响应的文本语义特征向量,通过Resnet-50获取图像中的每个目标(object)特征向量。其次,由于文本的某些词还特别指代图像中的某个目标,所以将图像中的目标特征向量与相应的文本语义向量进行拼接,训练Bi-LSTM编码特征表示;然后利用双向线性注意力方法将询问语义特征和图像语义特征融合到响应特征中,获取包含图像和询问信息的响应特征表示;再次,利用Transformer对响应进行编码,之后对响应池化操作得到每个候选响应的向量表示,利用双向注意力方法对响应之间的关联进行建模,之后输入多层感知机进行分类,使用梯度下降方法更新参数,找到最优的模型。根据本专利技术的一方面,提供一种视觉常识推理问答题的答题模型生成方法,所述方法包括:S1、语料预处理,为询问和响应生成文本语义向量,为图像生成图像目标特征向量;S2、融合文本语义向量与图像目标特征向量,生成响应向量Ri;S3、响应建模,获得每个响应的向量表示ri;S4、将每个响应的向量表示ri关联比较,获得关联响应向量zi;S5、利用关联响应向量zi构建分类器及模型训练。较佳地,在步骤S1中,语料包含一幅图像、一个问题、若干候选答案和理由,其中,所述问题、候选答案和理由均由数字标签和语言文字混合描述,数字标签与图像中的目标对应,询问为所述问题或所述问题和答案的组合,响应为候选答案或理由。较佳地,在步骤S1中,为询问和响应生成文本语义向量,为图像生成图像目标特征向量的步骤为:将询问和响应输入到预训练模型Bert-base中,分别获取询问和响应的文本语义向量和将图像输入Resnet-50中获取图像目标的特征向量较佳地,在步骤S2中,将图像目标特征向量与文本语义向量拼接得到询问向量和响应向量,利用Bi-LSTM将询问向量和响应向量编码为uq和利用双向线性注意力方法将询问向量uq和图像特征融合到响应向量中,然后通过非线性层得到响应向量Ri。较佳地,在步骤S3中,利用多层Transformer对得到的响应向量Ri特征编码,得到更高层的响应语义特征向量表示将池化操作得到每个选项响应的向量表示ri。较佳地,在步骤S4中,用双向线性注意力方法对响应向量ri进行比较,得到关联响应向量zi。优选的,在双向线性注意力方法中,将相似权重矩阵中对角线位置的系数设置为负无穷,以防止响应向量之间进行自我比较。较佳地,在步骤S5中,将关联响应向量zi输入多层感知机中,在全连接的网络之后接入softmax函数得到类别的概率分布,计算交叉熵作为损失函数,使用随机梯度下降法更新模型参数直到其收敛,最终得到答题模型。根据本专利技术的另一方面,提供了一种视觉常识推理问答题的答题模型生成系统,所述系统包括预处理模块、特征融合模块、响应建模模块、响应关联比较模块和训练模块,其中,所述预处理模块,用于预处理语料,并为询问和响应生成文本语义向量,为图像生成图像目标特征向量;所述特征融合模块,用于融合文本语义向量与图像目标特征向量,生成响应向量Ri;所述响应建模模块,用于获得每个响应的向量表示ri;所述响应关联比较模块,用于关联比较每个响应的向量ri,获得关联响应向量zi;所述训练模块,用于利用关联响应向量zi构建分类器及模型训练。较佳地,在所述预处理模块中,通过预训练模型Bert-base获取文本语义向量,通过Resnet-50获取图像目标特征向量;在特征融合模块中,通过Bi-LSTM和双向线性注意力方法生成响应向量Ri;在所述响应建模模块中,利用多层Transformer和池化操作得到每个选项响应的向量表示ri;在响应关联比较模块中,通过用双向线性注意力方法生成关联响应向量zi。本专利技术提供的视觉常识推理问答题的答题模型生成方法和系统,与现有方法相比,具有如下有益效果:(1)通过充本文档来自技高网
...

【技术保护点】
1.一种视觉常识推理问答题答题模型的生成方法,其特征在于,所述方法包括:/nS1、语料预处理,为询问和响应生成文本语义向量,为图像生成图像目标特征向量;/nS2、融合文本语义向量与图像目标特征向量,生成响应向量R

【技术特征摘要】
1.一种视觉常识推理问答题答题模型的生成方法,其特征在于,所述方法包括:
S1、语料预处理,为询问和响应生成文本语义向量,为图像生成图像目标特征向量;
S2、融合文本语义向量与图像目标特征向量,生成响应向量Ri;
S3、响应建模,获得每个响应的向量表示ri;
S4、将每个响应的向量表示ri进行关联比较,获得关联响应向量zi;
S5、利用关联响应向量zi构建分类器及模型训练。


2.根据权利要求1所述的生成方法,其特征在于,在步骤S1中,语料包含一幅图像、一个问题、若干候选答案和理由,其中,所述问题、候选答案和理由均由数字标签和语言文字混合描述,数字标签与图像中的目标对应,询问为所述问题或所述问题和答案的组合,响应为候选答案或理由。


3.根据权利要求1所述的生成方法,其特征在于,在步骤S1中,为询问和响应生成文本语义向量,为图像生成图像目标特征向量的步骤为:
将询问和响应输入到预训练模型Bert-base中,分别获取询问和响应的文本语义向量和将图像输入Resnet-50中获取图像目标的特征向量


4.根据权利要求1所述的生成方法,其特征在于,在步骤S2中,将图像目标特征向量与文本语义向量拼接得到询问向量和响应向量,利用Bi-LSTM将询问向量和响应向量编码为uq和利用双向线性注意力方法将询问uq和图像特征融合到响应向量中,然后通过非线性层得到响应向量Ri。


5.根据权利要求1所述的生成方法,其特征在于,在步骤S3中,利用多层Transformer对响应向量Ri特征编码,得到更高层的响应语义特征向量表示将池化操作得到每个响应的向量表示ri。


6.根据权利要求1所述...

【专利技术属性】
技术研发人员:鉴萍宋远生
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1