基于语义嵌入的零样本视觉问答方法技术

技术编号:28054384 阅读:70 留言:0更新日期:2021-04-14 13:21
本发明专利技术公开了一种基于语义嵌入的零样本视觉问答方法,包含以下步骤:收集若干词汇构成词汇集合;对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S,词向量库S包含每个词汇以及其对应的词向量;提取待识别图像的视觉特征R;提取和待识别图像相对应的问题的语言特征E;将视觉特征R和语言特征E进行关系建模并输出预测词向量C;通过计算获得词向量库S中与预测词向量C相匹配的词汇。本发明专利技术的基于语义嵌入的零样本视觉问答方法,提供一种新的视觉问答技术,在不扩大训练数据集规模的前提下,在现实场景中应用时,可以给出不存在于训练数据集中的答案。可以给出不存在于训练数据集中的答案。可以给出不存在于训练数据集中的答案。

【技术实现步骤摘要】
基于语义嵌入的零样本视觉问答方法


[0001]本专利技术涉及一种基于语义嵌入的零样本视觉问答方法。

技术介绍

[0002]视觉问答(Visual Question Answering,VQA)技术指的是设计一个模型,在给定一张 图片的情况下,该模型可以自动回答和图片内容相关的问题。例如给定一张内容是一张桌子 上放了三个苹果的图片以及一个问题“桌子上有几个苹果”,程序需要根据图片和问题给出答 案3。这个技术有很广的应用场景,例如用于帮助弱势群体(盲人)获取信息,改进人机交 互,提高小孩子的认知教育。
[0003]现有的方法都将视觉问答视为一个分类的问题。具体的来说,建立一个包含大量图片和 对应问题

答案对的数据集,将数据集中出现过的答案作为候选类别。设计深度神经模型,使 用构建好的数据集进行训练。给定图片和对应的问题,训练好的模型会输出所有候选类别的 概率,将概率较大的几个类别作为问题的答案。
[0004]现有技术的缺陷在于:现有的方法的候选类别非常有限,依赖于所构建的数据集的大小。 由于模型仅仅能在候选类别中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义嵌入的零样本视觉问答方法,其特征在于,包含以下步骤:收集若干词汇构成词汇集合;对收集到的所述词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S,所述词向量库S包含每个词汇以及其对应的词向量;提取待识别图像的视觉特征R;提取和所述待识别图像相对应的问题的语言特征E;将所述视觉特征R和所述语言特征E进行关系建模并输出预测词向量C;通过计算获得所述词向量库S中与所述预测词向量C相匹配的词汇。2.根据权利要求1所述的基于语义嵌入的零样本视觉问答方法,其特征在于,所述对收集到的所述词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S的具体方法为:通过词汇嵌入算法将所述词汇集合中的每个词汇编码成300维的词向量;将词汇和其对应的词向量以键

值对的形式保存为字典以构成所述词向量库S。3.根据权利要求2所述的基于语义嵌入的零样本视觉问答方法,其特征在于,所述字典为CSV格式。4.根据权利要求2所述的基于语义嵌入的零样本视觉问答方法,其特征在于,所述提取待识别图像的视觉特征R的具体方法为:将待识别图像的分辨率设置为224*224;使用经过预训练的提取网络提取所述待识别图像的所述视觉特征R,所述视觉特征R为一个2048维的向量。5.根据权利要求4所述的基于语义嵌入的零样本视觉问答方法,其特征在于,所述提取网络为ResNet

50网络。6.根据权利要求4所述的基于语义嵌入的零样本视觉问答方法,其特征在于,所述提取和所述待识别图像相对应的问题的语言特征E的具体方法为:对所述问题的语句采用字符串检索的方式进行检测并去除标点符号;将语句的长度处理...

【专利技术属性】
技术研发人员:周泓杨诚罗本燕彭国平
申请(专利权)人:浙江大学医学院附属第一医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1