一种视觉常识推理问答题的答题模型生成方法和系统技术方案

技术编号：25690845 阅读：54 留言：0更新日期：2020-09-18 21:02

本发明专利技术提出一种视觉常识推理问答题答题模型的生成方法和系统，该方法包括：S1、语料预处理，为询问和响应生成文本语义向量，为图像生成图像目标特征向量。S2、融合文本语义向量与图像目标特征向量。S3、响应建模，获得每个候选响应的向量表示r

全部详细技术资料下载

【技术实现步骤摘要】
一种视觉常识推理问答题的答题模型生成方法和系统
本专利技术属于自然语言处理与计算机视觉的交叉技术应用领域，尤其涉及一种视觉常识推理问答题的答题模型生成方法和系统。
技术介绍
图像理解是人类与生俱来的一种认知世界的能力，随着人工智能前沿技术的发展，越来越多的学者希望机器能够具备这样的图像理解能力。视觉常识推理问答作为一项测试机器多模态表示学习推理的任务，其能够很好的衡量和检验机器的图像理解水平，在图像检索、社交媒体、电子商务等领域有着广泛的潜在应用，所以对视觉常识推理问答的研究有着十分重大的意义。视觉常识推理问答与已有的视觉问答任务形式比较相似，输入都为一张图像以及与这张图像相关的自然语言描述的问题，需要机器正确地给出相应的答案。但是视觉常识推理问答中给出的图像和问题内容更加复杂抽象，需要机器充分地理解图像内容与文本语义，甚至需要更高阶的认知和关于世界的常识推理才能回答该问题。如图1所示，视觉常识推理任务为：给定一张图像(image)以及一个问题(question)，需要从4个候选答案(answer)中选出正确的一个，除了选出答案，还需要机器从给出的4个候选理由(rationale)中挑选出正确的理由来解释其选择的答案。Q代表问题，A0-3代表4个候选答案，R0-3代表4个候选理由。视觉常识推理任务(VCR任务)需要机器先选择出正确的答案，然后再选择出正确的理由。所以VCR总体任务(Q→AR)可以分解为答案选择(Q→A)和答案验证(QA→R)两个子任务。我们将这两个子任务统一在同一个模型框架中，不同的子任务使用...

【技术保护点】
1.一种视觉常识推理问答题答题模型的生成方法，其特征在于，所述方法包括：/nS1、语料预处理，为询问和响应生成文本语义向量，为图像生成图像目标特征向量；/nS2、融合文本语义向量与图像目标特征向量，生成响应向量R

【技术特征摘要】
1.一种视觉常识推理问答题答题模型的生成方法，其特征在于，所述方法包括：
S1、语料预处理，为询问和响应生成文本语义向量，为图像生成图像目标特征向量；
S2、融合文本语义向量与图像目标特征向量，生成响应向量Ri；
S3、响应建模，获得每个响应的向量表示ri；
S4、将每个响应的向量表示ri进行关联比较，获得关联响应向量zi；
S5、利用关联响应向量zi构建分类器及模型训练。

2.根据权利要求1所述的生成方法，其特征在于，在步骤S1中，语料包含一幅图像、一个问题、若干候选答案和理由，其中，所述问题、候选答案和理由均由数字标签和语言文字混合描述，数字标签与图像中的目标对应，询问为所述问题或所述问题和答案的组合，响应为候选答案或理由。

3.根据权利要求1所述的生成方法，其特征在于，在步骤S1中，为询问和响应生成文本语义向量，为图像生成图像目标特征向量的步骤为：
将询问和响应输入到预训练模型Bert-base中，分别获取询问和响应的文本语义向量和将图像输入Resnet-50中获取图像目标的特征向量

4.根据权利要求1所述的生成方法，其特征在于，在步骤S2中，将图像目标特征向量与文本语义向量拼接得到询问向量和响应向量，利用Bi-LSTM将询问向量和响应向量编码为uq和利用双向线性注意力方法将询问uq和图像特征融合到响应向量中，然后通过非线性层得到响应向量Ri。

5.根据权利要求1所述的生成方法，其特征在于，在步骤S3中，利用多层Transformer对响应向量Ri特征编码，得到更高层的响应语义特征向量表示将池化操作得到每个响应的向量表示ri。

6.根据权利要求1所述...

【专利技术属性】
技术研发人员：鉴萍，宋远生，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人