【技术实现步骤摘要】
基于语义对齐的视觉问答方法和系统、存储介质
本专利技术涉及视觉问答
,具体涉及一种基于语义对齐的视觉问答方法和系统、存储介质。
技术介绍
视觉问答是一种涉及计算机视觉和自然语言处理的学习任务,就是让计算机学习输入的图片和问题输出一个符合自然语言规则且内容符合逻辑的答案,它根据问题的不同仅聚焦与图片中某一部分的对象,并且某些问题需要一定的常识推理才能得到答案,所以,视觉问答相比于一般的看图说话在对图像的语义理解上要求更高,也面对着更大的挑战。目前,现有的视觉问答技术通常采用注意力机制实现获取最终的回答结果的目的。例如,申请号为CN201910770172.X的专利技术《一种基于多重注意力的视觉问答方法及系统》,其主要采用问题与图像两个模态之间的注意力机制,得到注意力特征向量,进而获取回答结果。但是,上述现有视觉问答技术仅关注图像中的对象信息和问题信息之间的关联,在特征融合过程中仅涉及到原始图像特征和问题特征,信息不够完善,导致最终生成的回答结果不准确。
技术实现思路
(一)解决的技术问 ...
【技术保护点】
1.一种基于语义对齐的视觉问答方法,其特征在于,包括:/n获取并预处理数据集,得到预处理后的原始图像以及与原始图像信息对应的问答信息,所述问答信息包括问题和答案;/n根据所述预处理后的原始图像提取原始图像特征和目标位置特征,根据所述目标位置特征产生图像描述语句;根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征;/n将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征;根据所述原始图像特征和图像描述语句特征,得到第二图像特征;根据所述原始图像特征和问题特征,得到第三图像特征;/n融合所述第一图像特征、第二图像特征、第三图像特征、图像描述语句特 ...
【技术特征摘要】
1.一种基于语义对齐的视觉问答方法,其特征在于,包括:
获取并预处理数据集,得到预处理后的原始图像以及与原始图像信息对应的问答信息,所述问答信息包括问题和答案;
根据所述预处理后的原始图像提取原始图像特征和目标位置特征,根据所述目标位置特征产生图像描述语句;根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征;
将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征;根据所述原始图像特征和图像描述语句特征,得到第二图像特征;根据所述原始图像特征和问题特征,得到第三图像特征;
融合所述第一图像特征、第二图像特征、第三图像特征、图像描述语句特征和问题特征,得到综合特征;
根据所述综合特征,在所述答案中预测出最终的回答结果。
2.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,所述根据所述原始图像提取原始图像特征和目标位置特征,具体包括:
将所述原始图像输入ResNet网络生成所述原始图像特征;
采用FasterR-CNN框架进行图像区域的目标位置的选取,得到所述目标位置特征。
3.如权利要求2所述的基于语义对齐的视觉问答方法,其特征在于,所述根据所述目标位置特征产生图像描述语句,具体包括:
将所述图像区域输入到预训练的卷积神经网络中得到特征向量,将所述特征向量经过维度转换后输入到LSTM单元序列中,所述图像区域产生对应的描述语句,得到所述图像描述语句。
4.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,所述根据所述问题和图像描述语句,得到图像描述单词、问题特征和图像描述语句特征,具体包括:
将所述问题和图像描述语句进行分词,去停用词,根据词频进行筛选得到所述图像描述单词,最终获取一个词表;
对于所述词表中的每个图像描述单词,采用glove词向量进行词嵌入,将所述问题和图像描述语句对应的词嵌入图像描述单词输入到LSTM单元序列,分别得到所述问题特征和图像描述语句特征。
5.如权利要求1所述的基于语义对齐的视觉问答方法,其特征在于,所述将所述原始图像特征与图像描述单词进行语义对齐,得到第一图像特征,具体包括:
将所述原始图像特征与图像描述单词输入一个注意力机...
【专利技术属性】
技术研发人员:孙晓,时雨涛,汪萌,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。