A method of improving the premise in the visual quiz scene in the credibility of the present invention, the main contents include: correlation extraction, information database, forecasting premise issues related to detection, visual quiz data expansion, the process is firstly extracted, premise information problems, structural problems between prediction and explanation on the database. The image of (Ii, Qi) two yuan classification, premise information in Qi whether there is identification of the image Ii, then based on one hot encoding, the use of VGG network and long-term memory network based on image Ii and Qi encoding, and input it to the multilayer perceptron prediction. The invention can process a plurality of target objects in different scenes and their relations, and provide a coding method to calculate the image matching distance, and simultaneously improve the reliability of the premise information of the problem.
【技术实现步骤摘要】
一种在视觉问答场景中提高问题前提可信度的方法
本专利技术涉及视觉问答领域,尤其是涉及了一种在视觉问答场景中提高问题前提可信度的方法。
技术介绍
针对图像内容自主贴上图像标签或主题文字,是近年来备受关注的课题,尤其在产生海量图像的今天,完全依照人眼去辨别图像内容并分类是个不可能的任务,因此如何利用先验知识给特定图像内容贴上主题标签,并且在视觉问答上准确回答出问题的关键所在,是值得考量的事情。如果能在非人眼劳动下成功将图像内容回答出来,将对工程学和视觉产业带来极高的意义和经济价值,尤其在背景宽广、物体稀疏如深海远洋之地,如能准确地汇总实时航行信息、验证遥感测绘图像、合理规划勘探任务等方面具有巨大的潜能与效益。在传统方法中,视觉问答并不考虑问题的合理性,即便问题与图像内容无关,机器也会给出一个认为最相关的答案。例如图像中是一只红色的猎犬,当问题是“图中的鸭子颜色是什么”的时候,答案依然“红色”。视觉问答传统方法无法给出对问题中前提信息的正误判断,给答案的精确度和意义造成了不良影响。本专利技术提出了一种独热编码和深度学习编码的新框架。提取问题中前提信息,构造问题相关性预测及解释数据库,对问题图像对(Ii,Qi)进行二元分类,鉴定图像Ii是否存在问题Qi中的前提信息,然后在独热编码的基础上,使用VGG网络和长短期记忆网络分别对图像Ii和问题Qi进行编码,并将其输入到多层感知器进行预测。本专利技术可以处理不同场景中多种目标物体及其关系,提供一个编码方法来计算图像配对距离,同时提高了问题前提信息的可信度。
技术实现思路
针对解决在视觉问答领域中问题前提可信度低的问题,本专利 ...
【技术保护点】
一种在视觉问答场景中提高问题前提可信度的方法,其特征在于,主要包括问题前提信息提取(一);问题相关性预测数据库(二);问题相关性检测(三),视觉问答的数据扩张(四)。
【技术特征摘要】
1.一种在视觉问答场景中提高问题前提可信度的方法,其特征在于,主要包括问题前提信息提取(一);问题相关性预测数据库(二);问题相关性检测(三),视觉问答的数据扩张(四)。2.基于权利要求书1所述的问题前提信息提取(一),其特征在于,使用语义元祖图片标题评价标准来提取问题中的前提信息,具体为:(1)该评价标准将一个问题的句子转换成一个场景表示;(2)在转换过程中禁用代词消解和动词还原;(3)去除如“照片”、“图像”等关键字词。3.基于权利要求书1所述的问题相关性预测数据库(二),其特征在于,包括问题相关性原则、数据库构成和数据库集成。4.基于权利要求书3所述的问题相关性原则,其特征在于,为改变在传统视觉问答上,被提问的图像会强行根据题目进行不同程度的回答,即便问题与该图像毫无关系的局面,因此从问题相关性入手,建立问题相关性预测及解释数据库,具体为:(1)对自然问题Q,当图像与它相关时,用I+表示,当图像与它无关时,用I-表示;(2)为确保数据库更加现实与具有挑战,跟自然问题Q无关的图像只具备一个错误前提;(3)通过VGG深度学习网络在ImageNet上的训练权值,计算不相关图像与源图像I+的视觉距离,确保它们之间视觉上相似但可作为前提信息区分度困难的例子。5.基于权利要求书3所述的数据库构成,其特征在于,利用现有的标题图片数据库和VisualGenome标签数据库,根据三个判断题目前提信息的次序来进行数据库的建构:(1)对于第一类前提,即进行标题存在判断的前提,利用80类数据库的标题图片,可以单纯从图像标题上就能检查出前提的存在与否;(2)对于第二类前提,即进行属性物体存在判断的前提,利用VisualGenome标签数据库,由于标签不完全覆盖图像内容,因此在没有更严格的约束条件下,标签之间不相互排斥,来确保只存在一个错误的前提;(3)对于第三类前提,即进行图像物体关系判断的前提,由于对应图像之间的内容间缺乏独立性,因此需要人为填补更多的标签及标题,可在上述数据库中实现;(4)在建构好的数据库中取出问题图...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。