一种在视觉问答场景中提高问题前提可信度的方法技术

技术编号:16216575 阅读:49 留言:0更新日期:2017-09-15 22:46
本发明专利技术中提出的一种在视觉问答场景中提高问题前提可信度的方法,其主要内容包括:前提信息提取、问题相关性预测数据库、问题相关性检测、视觉问答的数据扩张,其过程为,首先提取问题中前提信息,构造问题相关性预测及解释数据库,对问题图像对(Ii,Qi)进行二元分类,鉴定图像Ii是否存在问题Qi中的前提信息,然后在独热编码的基础上,使用VGG网络和长短期记忆网络分别对图像Ii和问题Qi进行编码,并将其输入到多层感知器进行预测。本发明专利技术可以处理不同场景中多种目标物体及其关系,提供一个编码方法来计算图像配对距离,同时提高了问题前提信息的可信度。

Method for improving reliability of question premise in visual question and answer scene

A method of improving the premise in the visual quiz scene in the credibility of the present invention, the main contents include: correlation extraction, information database, forecasting premise issues related to detection, visual quiz data expansion, the process is firstly extracted, premise information problems, structural problems between prediction and explanation on the database. The image of (Ii, Qi) two yuan classification, premise information in Qi whether there is identification of the image Ii, then based on one hot encoding, the use of VGG network and long-term memory network based on image Ii and Qi encoding, and input it to the multilayer perceptron prediction. The invention can process a plurality of target objects in different scenes and their relations, and provide a coding method to calculate the image matching distance, and simultaneously improve the reliability of the premise information of the problem.

【技术实现步骤摘要】
一种在视觉问答场景中提高问题前提可信度的方法
本专利技术涉及视觉问答领域,尤其是涉及了一种在视觉问答场景中提高问题前提可信度的方法。
技术介绍
针对图像内容自主贴上图像标签或主题文字,是近年来备受关注的课题,尤其在产生海量图像的今天,完全依照人眼去辨别图像内容并分类是个不可能的任务,因此如何利用先验知识给特定图像内容贴上主题标签,并且在视觉问答上准确回答出问题的关键所在,是值得考量的事情。如果能在非人眼劳动下成功将图像内容回答出来,将对工程学和视觉产业带来极高的意义和经济价值,尤其在背景宽广、物体稀疏如深海远洋之地,如能准确地汇总实时航行信息、验证遥感测绘图像、合理规划勘探任务等方面具有巨大的潜能与效益。在传统方法中,视觉问答并不考虑问题的合理性,即便问题与图像内容无关,机器也会给出一个认为最相关的答案。例如图像中是一只红色的猎犬,当问题是“图中的鸭子颜色是什么”的时候,答案依然“红色”。视觉问答传统方法无法给出对问题中前提信息的正误判断,给答案的精确度和意义造成了不良影响。本专利技术提出了一种独热编码和深度学习编码的新框架。提取问题中前提信息,构造问题相关性预测及解释数据库,对问题图像对(Ii,Qi)进行二元分类,鉴定图像Ii是否存在问题Qi中的前提信息,然后在独热编码的基础上,使用VGG网络和长短期记忆网络分别对图像Ii和问题Qi进行编码,并将其输入到多层感知器进行预测。本专利技术可以处理不同场景中多种目标物体及其关系,提供一个编码方法来计算图像配对距离,同时提高了问题前提信息的可信度。
技术实现思路
针对解决在视觉问答领域中问题前提可信度低的问题,本专利技术的目的在于提供一种在视觉问答场景中提高问题前提可信度的方法,提出了一种独热编码和深度学习编码的新框架。为解决上述问题,本专利技术提供一种基于视频数据的人体动作分析方法,其主要内容包括:(一)前提信息提取;(二)问题相关性预测数据库;(三)问题相关性检测;(四)视觉问答的数据扩张。其中,所述的前提信息提取,使用语义元祖图片标题评价标准来提取问题中的前提信息,具体为:(1)该评价标准将一个问题的句子转换成一个场景表示;(2)在转换过程中禁用代词消解和动词还原;(3)去除如“照片”、“图像”等关键字词。进一步地,所述的问题相关性预测数据库,包括问题相关性原则、数据库构成和数据库集成。进一步地,所述的问题相关性原则,为改变在传统视觉问答上,被提问的图像会强行根据题目进行不同程度的回答,即便问题与该图像毫无关系的局面,因此从问题相关性入手,建立问题相关性预测及解释数据库,具体为:(1)对自然问题Q,当图像与它相关时,用I+表示,当图像与它无关时,用I-表示;(2)为确保数据库更加现实与具有挑战,跟自然问题Q无关的图像只具备一个错误前提;(3)通过VGG深度学习网络在ImageNet上的训练权值,计算不相关图像与源图像I+的视觉距离,确保它们之间视觉上相似但可作为前提信息区分度困难的例子。进一步地,所述的数据库构成,利用现有的标题图片数据库和VisualGenome标签数据库,根据三个判断题目前提信息的次序来进行数据库的建构:(1)对于第一类前提,即进行标题存在判断的前提,利用80类数据库的标题图片,可以单纯从图像标题上就能检查出前提的存在与否;(2)对于第二类前提,即进行属性物体存在判断的前提,利用VisualGenome标签数据库,由于标签不完全覆盖图像内容,因此在没有更严格的约束条件下,标签之间不相互排斥,来确保只存在一个错误的前提;(3)对于第三类前提,即进行图像物体关系判断的前提,由于对应图像之间的内容间缺乏独立性,因此需要人为填补更多的标签及标题,可在上述数据库中实现;(4)在建构好的数据库中取出问题图像对,即具有正确标题前提信息的图像I+和只有一个错误条标题前提信息的I′,首先提取第一类、第二类前提信息,对每一个前提信息,遍历所有图像,找出只缺该前提信息的所有图像,再进行视觉距离的排序,距离最近的问题图像对可保持不相关图像标签。进一步地,所述的数据库集成,问题图像对(I+,Q,I-)中如果存在篡改的前提信息,则使得图像I-对问题Q无关,具体地,该图像库含有(I+,Q,I-)类图像共102432对,其中11065对为第二类前提信息,剩下的91367对位第一类前提信息,此外,该数据库包含2961个独一无二的前提和96812个独一无二的问题;从中,68037个前提信息用于训练,34395个前提信息用于验证。进一步地,所述的问题相关性检测,包括相关性预测和相关性解释。进一步地,所述的相关性预测,对于问题图像对(Ii,Qi),只考虑一个二元预测任务:问题Qi是否与图像Ii相关,这需要将问题及图像进行编码,具体地,在独热编码的基础上,使用VGG网络对图像Ii进行编码,使用长短期记忆网络对问题Qi进行编码,将编码流串联起来输入到多层感知器进行预测。进一步地,所述的相关性解释,在视觉问答系统中,纠正问题的错误比强行回答错误的问题要更为重要,由此衍生对错误提问的报告,具体地,给定一个问题图像对(Ii,Qi),目标在于鉴定图像Ii是否存在问题Qi中的前提信息,同样地,在独热编码的基础上,使用VGG网络对图像Ii进行编码,使用长短期记忆网络对问题Qi进行编码,将编码流串联起来输入到多层感知器进行预测。进一步地,所述的视觉问答的数据扩张,在视图上已经有先验知识的情况下,从视觉问答系统的训练集合中基于问题的前提信息产生简单的、模板化的新问题,所有被搜集起来的问题图像对都会经过视觉正常的人眼观察并提问,也会被视作已经经过先验知识的验证,然后按照三类前提信息的模板进行问题的填充,尤其涉及物体之间的关系信息。附图说明图1是本专利技术一种在视觉问答场景中提高问题前提可信度的方法的系统流程图。图2是本专利技术一种在视觉问答场景中提高问题前提可信度的方法的示意图。图3是本专利技术一种在视觉问答场景中提高问题前提可信度的方法的训练例子。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本专利技术作进一步详细说明。图1是本专利技术一种在视觉问答场景中提高问题前提可信度的方法的系统流程图。主要包括前提信息提取;问题相关性预测数据库;问题相关性检测;视觉问答的数据扩张。其中,前提信息提取,使用语义元祖图片标题评价标准来提取问题中的前提信息,具体为:(1)该评价标准将一个问题的句子转换成一个场景表示;(2)在转换过程中禁用代词消解和动词还原;(3)去除如“照片”、“图像”等关键字词。问题相关性预测数据库,包括问题相关性原则、数据库构成和数据库集成。问题相关性原则,为改变在传统视觉问答上,被提问的图像会强行根据题目进行不同程度的回答,即便问题与该图像毫无关系的局面,因此从问题相关性入手,建立问题相关性预测及解释数据库,具体为:(1)对自然问题Q,当图像与它相关时,用I+表示,当图像与它无关时,用I-表示;(2)为确保数据库更加现实与具有挑战,跟自然问题Q无关的图像只具备一个错误前提;(3)通过VGG深度学习网络在ImageNet上的训练权值,计算不相关图像与源图像I+的视觉距离,确保它们之间视觉上相似但可作为前提信息区分度困难的例子。数据库构成,利用现有本文档来自技高网...
一种在视觉问答场景中提高问题前提可信度的方法

【技术保护点】
一种在视觉问答场景中提高问题前提可信度的方法,其特征在于,主要包括问题前提信息提取(一);问题相关性预测数据库(二);问题相关性检测(三),视觉问答的数据扩张(四)。

【技术特征摘要】
1.一种在视觉问答场景中提高问题前提可信度的方法,其特征在于,主要包括问题前提信息提取(一);问题相关性预测数据库(二);问题相关性检测(三),视觉问答的数据扩张(四)。2.基于权利要求书1所述的问题前提信息提取(一),其特征在于,使用语义元祖图片标题评价标准来提取问题中的前提信息,具体为:(1)该评价标准将一个问题的句子转换成一个场景表示;(2)在转换过程中禁用代词消解和动词还原;(3)去除如“照片”、“图像”等关键字词。3.基于权利要求书1所述的问题相关性预测数据库(二),其特征在于,包括问题相关性原则、数据库构成和数据库集成。4.基于权利要求书3所述的问题相关性原则,其特征在于,为改变在传统视觉问答上,被提问的图像会强行根据题目进行不同程度的回答,即便问题与该图像毫无关系的局面,因此从问题相关性入手,建立问题相关性预测及解释数据库,具体为:(1)对自然问题Q,当图像与它相关时,用I+表示,当图像与它无关时,用I-表示;(2)为确保数据库更加现实与具有挑战,跟自然问题Q无关的图像只具备一个错误前提;(3)通过VGG深度学习网络在ImageNet上的训练权值,计算不相关图像与源图像I+的视觉距离,确保它们之间视觉上相似但可作为前提信息区分度困难的例子。5.基于权利要求书3所述的数据库构成,其特征在于,利用现有的标题图片数据库和VisualGenome标签数据库,根据三个判断题目前提信息的次序来进行数据库的建构:(1)对于第一类前提,即进行标题存在判断的前提,利用80类数据库的标题图片,可以单纯从图像标题上就能检查出前提的存在与否;(2)对于第二类前提,即进行属性物体存在判断的前提,利用VisualGenome标签数据库,由于标签不完全覆盖图像内容,因此在没有更严格的约束条件下,标签之间不相互排斥,来确保只存在一个错误的前提;(3)对于第三类前提,即进行图像物体关系判断的前提,由于对应图像之间的内容间缺乏独立性,因此需要人为填补更多的标签及标题,可在上述数据库中实现;(4)在建构好的数据库中取出问题图...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1