图像问答方法、装置、设备以及存储介质制造方法及图纸

技术编号：25915046 阅读：30 留言：0更新日期：2020-10-13 10:33

本申请公开了图像问答方法、装置、设备以及存储介质，涉及图像处理、计算机视觉、深度学习以及自然语言处理技术领域。具体实现方案为：根据查询语句，构建具有拓扑结构的问题图以及提取查询语句的问题特征；根据与查询语句对应的目标图像，构建具有拓扑结构的视觉图和文本图；利用融合模型将视觉图、文本图和问题图进行融合，得到最终融合图；根据最终融合图提取的推理特征以及问题特征，确定查询语句的答复信息。本申请实施例由于将基于目标图像和查询语句所构建视觉图、文本图和问题图进行跨模态的融合，因此可以获取到目标图像在不同模态下的关注点，从而能够在此基础上根据查询语句的意图更加准确的识别出图像问答的答案。

全部详细技术资料下载

【技术实现步骤摘要】
图像问答方法、装置、设备以及存储介质
本申请涉及图像处理
，尤其涉及计算机视觉、深度学习以及自然语言处理

技术介绍
在现有的图像问答技术中，由于查询语句中通常包含有大量口语化的描述，且查询语句所对应的图像中通常存在较多目标，因此很难做到快速准确的理解问题，并且从图像中准确的推理出对应答案。
技术实现思路
本申请提供了一种图像问答方法、装置、设备以及存储介质。根据本申请的一方面，提供了一种图像问答方法，包括：根据查询语句，构建具有拓扑结构的问题图以及提取查询语句的问题特征；根据与查询语句对应的目标图像，构建具有拓扑结构的视觉图和文本图；利用融合模型将视觉图、文本图和问题图进行融合，得到最终融合图；根据最终融合图提取的推理特征以及问题特征，确定查询语句的答复信息。根据本申请的另一方面，提供了一种图像问答装置，包括：查询语句模块，用于根据查询语句，构建问题图以及提取查询语句的问题特征；图像模块，用于根据与查询语句对应的目标图像，构建视觉图和文本图；融合模块，用于利用融合模型将视觉图、文本图和问题图进行融合，得到最终融合图；确定模块，用于根据最终融合图提取的推理特征以及问题特征，确定查询语句的答复信息。根据本申请的另一方面，提供了一种电子设备，电子设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，电子设备的结构中包括...

【技术保护点】
1.一种图像问答方法，包括：/n根据查询语句，构建具有拓扑结构的问题图以及提取所述查询语句的问题特征；/n根据与所述查询语句对应的目标图像，构建具有拓扑结构的视觉图和文本图；/n利用融合模型将所述视觉图、所述文本图和所述问题图进行融合，得到最终融合图；/n根据所述最终融合图提取的推理特征以及所述问题特征，确定所述查询语句的答复信息。/n

【技术特征摘要】
1.一种图像问答方法，包括：
根据查询语句，构建具有拓扑结构的问题图以及提取所述查询语句的问题特征；
根据与所述查询语句对应的目标图像，构建具有拓扑结构的视觉图和文本图；
利用融合模型将所述视觉图、所述文本图和所述问题图进行融合，得到最终融合图；
根据所述最终融合图提取的推理特征以及所述问题特征，确定所述查询语句的答复信息。

2.根据权利要求1所述的方法，其中，所述利用融合模型将所述视觉图、所述文本图和所述问题图进行融合，得到最终融合图，包括：
利用第一融合模型将视觉图和所述文本图进行融合，得到第一融合图；
利用第二融合模型将所述文本图和所述问题图进行融合，得到第二融合图；
利用第三融合模型将所述第一融合图和所述第二融合图进行融合，得到所述最终融合图。

3.根据权利要求1所述的方法，其中，所述根据查询语句，构建问题图，包括：
利用句法分析算法对所述查询语句进行计算，确定各个词节点之间的边关系，所述各个词节点由从所述查询语句中的各个词构成；
根据所述查询语句，确定所述各个词节点的节点特征；
根据所述各个词节点的节点特征以及所述各个词节点之间的边关系，构建所述问题图。

4.根据权利要求3所述的方法，还包括：
利用第一编码模型对所述各个词节点的节点特征进行更新。

5.根据权利要求1所述的方法，其中，所述根据与所述查询语句对应的目标图像，构建视觉图，包括：
利用目标检测算法识别所述目标图像中包括的各个目标，以及确定所述各个目标的表观特征和空间特征；
根据所述各个目标的表观特征和空间特征，确定由所述各个目标构成的各视觉图节点的节点特征；
根据所述各个目标之间的重叠度，确定所述各视觉图节点之间的边关系；
根据所述各视觉图节点的节点特征以及所述各视觉图节点之间的边关系，构建所述视觉图。

6.根据权利要求5所述的方法，还包括：
利用第二编码模型对所述各视觉图节点的节点特征进行更新。

7.根据权利要求1所述的方法，其中，所述根据与所述查询语句对应的目标图像，构建文本图，包括：
利用视觉关系检测算法确定所述目标图像中识别出的各个目标的标签特征以及所述各个目标之间的关系特征；
根据所述各个目标的标签特征和所述各个目标之间的关系特征，确定由所述各个目标构成的各文本图节点的节点特征；
根据所述各个目标之间的关系特征，确定所述各文本图节点之间的边关系；
根据所述各文本图节点的节点特征以及所述各文本图节点之间的边关系，构建所述文本图。

8.根据权利要求7所述的方法，还包括：
利用第三编码模型对所述各文本图节点的节点特征进行更新。

9.根据权利要求1至8任一项所述的方法，其中，所述根据所述最终融合图提取的推理特征以及所述问题特征，确定所述查询语句的答复信息，包括：
基于所述最终融合图提取的推理特征以及所述问题特征，利用多层感知器确定所述查询语句的答复信息。

10.一种图像问答装置，包括：
查询语句模块，用于根据查询语句，构建具有拓扑结构的问题图以及提取所述查询语句的问题特征；
图像模块，用于根据与所述查询语句对应的目标图像，构建具有拓扑结构的视觉图和文本图；
融合模块，用于利用融合模型将所述视觉图、所述文本图和所述问题图进行融合，得到最终融合图；
确定模块...

【专利技术属性】
技术研发人员：钦夏孟，李煜林，黄聚，谢群义，韩钧宇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人