图像问答方法、装置、设备以及存储介质制造方法及图纸

技术编号:25915046 阅读:30 留言:0更新日期:2020-10-13 10:33
本申请公开了图像问答方法、装置、设备以及存储介质,涉及图像处理、计算机视觉、深度学习以及自然语言处理技术领域。具体实现方案为:根据查询语句,构建具有拓扑结构的问题图以及提取查询语句的问题特征;根据与查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图;利用融合模型将视觉图、文本图和问题图进行融合,得到最终融合图;根据最终融合图提取的推理特征以及问题特征,确定查询语句的答复信息。本申请实施例由于将基于目标图像和查询语句所构建视觉图、文本图和问题图进行跨模态的融合,因此可以获取到目标图像在不同模态下的关注点,从而能够在此基础上根据查询语句的意图更加准确的识别出图像问答的答案。

【技术实现步骤摘要】
图像问答方法、装置、设备以及存储介质
本申请涉及图像处理
,尤其涉及计算机视觉、深度学习以及自然语言处理

技术介绍
在现有的图像问答技术中,由于查询语句中通常包含有大量口语化的描述,且查询语句所对应的图像中通常存在较多目标,因此很难做到快速准确的理解问题,并且从图像中准确的推理出对应答案。
技术实现思路
本申请提供了一种图像问答方法、装置、设备以及存储介质。根据本申请的一方面,提供了一种图像问答方法,包括:根据查询语句,构建具有拓扑结构的问题图以及提取查询语句的问题特征;根据与查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图;利用融合模型将视觉图、文本图和问题图进行融合,得到最终融合图;根据最终融合图提取的推理特征以及问题特征,确定查询语句的答复信息。根据本申请的另一方面,提供了一种图像问答装置,包括:查询语句模块,用于根据查询语句,构建问题图以及提取查询语句的问题特征;图像模块,用于根据与查询语句对应的目标图像,构建视觉图和文本图;融合模块,用于利用融合模型将视觉图、文本图和问题图进行融合,得到最终融合图;确定模块,用于根据最终融合图提取的推理特征以及问题特征,确定查询语句的答复信息。根据本申请的另一方面,提供了一种电子设备,电子设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,电子设备的结构中包括处理器和存储器,存储器用于存储支持电子设备执行上述图像问答的方法的程序,处理器被配置为用于执行存储器中存储的程序。电子设备还可以包括通信接口,用于与其他设备或通信网络通信。根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,用于存储电子设备及电子设备所用的计算机软件指令,其包括用于执行上述图像问答的方法所涉及的程序。根据本申请的技术解决了现有技术中无法准确的从图像中推理出查询语句所对应答案的问题。本申请实施例由于将基于目标图像和查询语句所构建视觉图、文本图和问题图进行跨模态的融合,因此可以获取到目标图像在不同模态下的关注点,从而能够在此基础上根据查询语句的意图更加准确的识别出图像问答的答案。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请实施例的图像问答方法的示意图;图2是根据本申请实施例的图像问答方法的步骤S10的示意图;图3是根据本申请另一实施例的图像问答方法的步骤S10的示意图;图4是根据本申请实施例的应用示意图;图5是根据本申请实施例的图像问答方法的步骤S20的示意图;图6是根据本申请另一实施例的图像问答方法的步骤S20的示意图;图7是根据本申请另一实施例的图像问答方法的步骤S20的示意图;图8是根据本申请另一实施例的图像问答方法的步骤S20的示意图;图9是根据本申请实施例的图像问答方法的步骤S30的示意图;图10是根据本申请实施例的应用示意图;图11是根据本申请另一实施例的图像问答方法的示意图;图12是根据本申请实施例的应用示意图;图13是根据本申请实施例的图像问答装置的示意图;图14是用来实现本申请实施例的图像问答方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。根据本申请的实施例,如图1所示,本申请提供了一种图像问答方法,包括:S10:根据查询语句,构建具有拓扑结构的问题图以及提取查询语句的问题特征。查询语句可以包括针对图像进行提问的任何内容。查询语句可以是语音形式的语句,也可以是文字形式的语句。例如,查询语句可以为“请问图中有几个男士?”。问题图可以理解为由节点和节点之间的边关系所构建的拓扑图。该拓扑图的具体节点、节点所对应的特征以及节点之间的边关系可以根据查询语句进行自定义。问题特征可以包括用于表示查询语句意图或语义的任意特征。问题特征的提取方式和问题特征的维度可以根据需要进行选择和调整,只要能够实现获取的问题特征能够表征与查询语句相关的内容即可。S20:根据与查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图。目标图像可以理解为查询语句所提问的目标。目标图像可以是一张也可以是多张。视觉图可以理解为由节点和节点之间的边关系所构建的拓扑图。该拓扑图的具体节点、节点所对应的特征以及节点之间的边关系可以根据目标进行自定义。视觉图可以用于表示目标图像中识别出的各个目标视觉相关内容的拓扑关系。文本图可以理解为由节点和节点之间的边关系所构建的拓扑图。该拓扑图的具体节点、节点所对应的特征以及节点之间的边关系可以根据目标进行自定义。文本图可以用于表示目标图像中识别出的各个目标类别和相互间关联性的拓扑关系。S30:利用融合模型将视觉图、文本图和问题图进行融合,得到最终融合图。融合模型可以采用现有技术中的任意神经网络模型,只要能够实现不同模态下的拓扑图的融合即可。最终融合图中可以包含有视觉图中每个节点的节点特征和/或节点边关系,文本图中每个节点的节点特征和/或节点边关系,问题图中每个节点的节点特征和/或节点边关系。S40:根据最终融合图提取的推理特征以及问题特征,确定查询语句的答复信息。推理特征可以理解为表示查询语句与目标图像之间的关系的特征。答复信息可以理解为基于查询语句的意图和目标图像中的图像内容,所作出的针对查询语句的回答。例如,当查询语句为“图中有几个男士?”时,答复信息可以为“图中有三个男士”。根据本申请的技术解决了现有技术中无法准确的从图像中推理出查询语句所对应答案的问题。本申请实施例通过构建视觉图和问题图来学习不同模态上的关注点,从而降低了包含多目标的图像和复杂问题带来的噪声。同时,通过构建了文本图来显式表示目标图像上各目标之间的视觉语义关系,提高了关系推理的能力。同时,由于将基于目标图像和查询语句所构建的视觉图、文本图和问题图进行跨模态的融合,因此可以实现根据目标图像在不同模态下的关注点以及查询语句的意图,进过多步关系推理而更加准确的识别出图像问答的答案。在一种实施方式中,如图2所示,根据查询语句,构建问题图,包括:S11:利用句法分析算法对查询语句进行计算,确定各个词节点之间的边关系,各个词节点由从查询语句中的各个词构成。查询语本文档来自技高网...

【技术保护点】
1.一种图像问答方法,包括:/n根据查询语句,构建具有拓扑结构的问题图以及提取所述查询语句的问题特征;/n根据与所述查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图;/n利用融合模型将所述视觉图、所述文本图和所述问题图进行融合,得到最终融合图;/n根据所述最终融合图提取的推理特征以及所述问题特征,确定所述查询语句的答复信息。/n

【技术特征摘要】
1.一种图像问答方法,包括:
根据查询语句,构建具有拓扑结构的问题图以及提取所述查询语句的问题特征;
根据与所述查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图;
利用融合模型将所述视觉图、所述文本图和所述问题图进行融合,得到最终融合图;
根据所述最终融合图提取的推理特征以及所述问题特征,确定所述查询语句的答复信息。


2.根据权利要求1所述的方法,其中,所述利用融合模型将所述视觉图、所述文本图和所述问题图进行融合,得到最终融合图,包括:
利用第一融合模型将视觉图和所述文本图进行融合,得到第一融合图;
利用第二融合模型将所述文本图和所述问题图进行融合,得到第二融合图;
利用第三融合模型将所述第一融合图和所述第二融合图进行融合,得到所述最终融合图。


3.根据权利要求1所述的方法,其中,所述根据查询语句,构建问题图,包括:
利用句法分析算法对所述查询语句进行计算,确定各个词节点之间的边关系,所述各个词节点由从所述查询语句中的各个词构成;
根据所述查询语句,确定所述各个词节点的节点特征;
根据所述各个词节点的节点特征以及所述各个词节点之间的边关系,构建所述问题图。


4.根据权利要求3所述的方法,还包括:
利用第一编码模型对所述各个词节点的节点特征进行更新。


5.根据权利要求1所述的方法,其中,所述根据与所述查询语句对应的目标图像,构建视觉图,包括:
利用目标检测算法识别所述目标图像中包括的各个目标,以及确定所述各个目标的表观特征和空间特征;
根据所述各个目标的表观特征和空间特征,确定由所述各个目标构成的各视觉图节点的节点特征;
根据所述各个目标之间的重叠度,确定所述各视觉图节点之间的边关系;
根据所述各视觉图节点的节点特征以及所述各视觉图节点之间的边关系,构建所述视觉图。


6.根据权利要求5所述的方法,还包括:
利用第二编码模型对所述各视觉图节点的节点特征进行更新。


7.根据权利要求1所述的方法,其中,所述根据与所述查询语句对应的目标图像,构建文本图,包括:
利用视觉关系检测算法确定所述目标图像中识别出的各个目标的标签特征以及所述各个目标之间的关系特征;
根据所述各个目标的标签特征和所述各个目标之间的关系特征,确定由所述各个目标构成的各文本图节点的节点特征;
根据所述各个目标之间的关系特征,确定所述各文本图节点之间的边关系;
根据所述各文本图节点的节点特征以及所述各文本图节点之间的边关系,构建所述文本图。


8.根据权利要求7所述的方法,还包括:
利用第三编码模型对所述各文本图节点的节点特征进行更新。


9.根据权利要求1至8任一项所述的方法,其中,所述根据所述最终融合图提取的推理特征以及所述问题特征,确定所述查询语句的答复信息,包括:
基于所述最终融合图提取的推理特征以及所述问题特征,利用多层感知器确定所述查询语句的答复信息。


10.一种图像问答装置,包括:
查询语句模块,用于根据查询语句,构建具有拓扑结构的问题图以及提取所述查询语句的问题特征;
图像模块,用于根据与所述查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图;
融合模块,用于利用融合模型将所述视觉图、所述文本图和所述问题图进行融合,得到最终融合图;
确定模块...

【专利技术属性】
技术研发人员:钦夏孟李煜林黄聚谢群义韩钧宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1