一种图像问答推理方法、系统及装置制造方法及图纸

技术编号:18204962 阅读:37 留言:0更新日期:2018-06-13 06:38
本发明专利技术公开了一种图像问答推理方法、系统及装置,方法包括:将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;根据推理结果,得到问答结果。系统包括语言处理模块、视觉处理模块、多步推理模快和结果生成模块。装置包括存储器和处理器。本发明专利技术无需先验知识就能得到问答结果,提高了图像问答推理的准确率;另外,本发明专利技术通过采用batch normalization运算方法,能够对多层次多类型的问题进行推理,提高了泛化能力。本发明专利技术可广泛应用于自然语言处理领域。

【技术实现步骤摘要】
一种图像问答推理方法、系统及装置
本专利技术涉及自然语言处理领域,尤其是一种图像问答推理方法、系统及装置。
技术介绍
基于视觉的问答推理是人工智能领域中一个重要的组成部分。使用深度神经网络的图像处理和自然语言处理已经在一些相对困难的任务中取得了巨大的突破,如物体识别任务和机器翻译任务。这些进展又反过来促进了那些同时涉及视觉和自然语言处理的任务。目前,针对图像问答推理的训练数据集逐步开源,尤其是涉及需要多步骤、高层次思维处理的任务数据集。传统的深度学习模型很难对这些结构化的、多步骤的推理进行学习训练,且传统的深度学习方法更倾向于学习数据的表面特征(即过拟合)而非真正的推理,泛化能力较弱,另外,这种方法需要大量的先验知识作为训练的前提,而且最终得到的拟合模型的准确率较低。因此,需要建立一种新的深度学习架构来实现显式的推理或关系关联。
技术实现思路
为解决上述技术问题,本专利技术的目的在于:提供一种无需先验知识就能直接进行学习推理的,准确率高且泛化能力强的图像问答推理方法、系统及装置。本专利技术所采取的第一技术方案是:一种图像问答推理方法,包括以下步骤:将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;采用batchnormalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;根据推理结果,得到问答结果。进一步,所述将输入的问题转换为问题特征向量这一步骤,包括以下步骤:采用word2vec算法,将问题中的中文词语转换为词向量;根据循环神经网络对转换的词向量进行处理,得到问题特征向量。进一步,所述采用batchnormalization运算方法,对转换得到的问题特征向量进行推理这一步骤,具体为:对转换得到的问题特征向量进行参数计算,得到对应BN层的参数。进一步,所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤,包括以下步骤:通过ImageNet数据库对输入的图像进行预训练;根据残差神经网络的卷积计算方法,对输入的图像进行特征向量提取。进一步,所述采用batchnormalization运算方法,对转换得到的图像特征向量进行推理这一步骤,包括以下步骤:根据特征提取得到的图像特征向量,对BN层进行参数定义;根据参数定义后的BN层,构造多步推理模型;根据构造的多步推理模型,对特征提取得到的特征向量进行训练处理。进一步,所述根据推理结果,得到问答结果这一步骤,包括以下步骤:结合卷积层、池化层和全连接层构造分类器;将对转换得到的问题特征向量和图像特征向量进行推理的结果输入构造得到的分类器,得到问题的答案的概率分布向量;选取最大概率分布向量对应的答案作为最终答案。进一步,还包括对输入的问题和图像进行弱监督训练的步骤。进一步,所述对输入的问题和图像进行弱监督训练这一步骤,包括以下步骤:将待训练的数据进行集中处理;采用弱监督策略对集中处理后的待训练数据进行端对端训练;采用可视化算法对训练的结果进行可视化观察。本专利技术所采取的第二技术方案是:一种图像问答推理系统,包括:语言处理模块,用于将输入的问题转换为问题特征向量;视觉处理模块,用于根据卷积神经网络将输入的图像转换为图像特征向量;多步推理模块,用于采用batchnormalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;结果生成模块,用于根据推理结果,得到问答结果。本专利技术所采取的第三技术方案是:一种图像问答推理装置,包括:存储器,用于存储程序;处理器,用于加载所述程序以执行如第一技术方案所述的图像问答推理方法。本专利技术的有益效果是:本专利技术通过直接对输入的问题和图像进行特征提取,以及采用batchnormalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理,无需先验知识就能得到问答结果,提高了图像问答推理的准确率;另外,本专利技术通过采用batchnormalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理,提高了泛化能力。附图说明图1为本专利技术一种图像问答推理方法的步骤流程图;图2为本专利技术一种图像问答推理方法的整体结构框图。具体实施方式下面结合说明书附图和具体实施例对本专利技术作进一步解释和说明。对于本专利技术实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。参照图1,本专利技术一种图像问答推理方法,包括以下步骤:将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;采用batchnormalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;根据推理结果,得到问答结果。其中,batchnormalization(简称BN)是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的一种运算方法。进一步作为优选的实施方式,所述将输入的问题转换为问题特征向量这一步骤,包括以下步骤:采用word2vec算法,将问题中的中文词语转换为词向量;根据循环神经网络对转换的词向量进行处理,得到问题特征向量。进一步作为优选的实施方式,所述采用batchnormalization运算方法,对转换得到的问题特征向量进行推理这一步骤,具体为:对转换得到的问题特征向量进行参数计算,得到对应BN层的参数。其中,所述参数计算的公式为:其中,m表示第m次参数计算,n表示当前参数计算下的第n个BN层,W表示变换矩阵,b表示偏置值,和表示待计算的参数,eq表示特征向量。另外,和的下标中的“.”代表特征图的数量。进一步作为优选的实施方式,所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤,包括以下步骤:通过ImageNet数据库对输入的图像进行预训练;根据残差神经网络的卷积计算方法,对输入的图像进行特征向量提取。进一步作为优选的实施方式,所述采用batchnormalization运算方法,对转换得到的图像特征向量进行推理这一步骤,包括以下步骤:根据特征提取得到的图像特征向量,对BN层进行参数定义;根据参数定义后的BN层,构造多步推理模型;根据构造的多步推理模型,对特征提取得到的特征向量进行训练处理。进一步作为优选的实施方式,所述根据推理结果,得到问答结果这一步骤,包括以下步骤:结合卷积层、池化层和全连接层构造分类器;将对转换得到的问题特征向量和图像特征向量进行推理的结果输入构造得到的分类器,得到问题的答案的概率分布向量;选取最大概率分布向量对应的答案作为最终答案。进一步作为优选的实施方式,还包括对输入的问题和图像进行弱监督训练的步骤。进一步作为优选的实施方式,所述对输入的问题和图像进行弱监督训练这一步骤,包括以下步骤:将待训练的数据进行集中处理;采用弱监督策略对集中处理后的待训练数据进行端对端训练;采用可视化算法对训练的结果进行可视化观察。其中,端对端是指输入的图像特征向量和问题特征向量不需要经过额外处理就能直接输入网络,然后输出最终答案,这个答案也不需要进行后续处理。参照图2,本专利技术一种图像问答推理系统,包括:语言处理模块,用于将输入的问题转换为问题特征向量;视觉处理模块,用于根据卷积神经网络将输入的图像转换为图像特征向量本文档来自技高网...
一种图像问答推理方法、系统及装置

【技术保护点】
一种图像问答推理方法,其特征在于:包括以下步骤:将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;根据推理结果,得到问答结果。

【技术特征摘要】
1.一种图像问答推理方法,其特征在于:包括以下步骤:将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;采用batchnormalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;根据推理结果,得到问答结果。2.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述将输入的问题转换为问题特征向量这一步骤,包括以下步骤:采用word2vec算法,将问题中的中文词语转换为词向量;根据循环神经网络对转换的词向量进行处理,得到问题特征向量。3.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述采用batchnormalization运算方法,对转换得到的问题特征向量进行推理这一步骤,具体为:对转换得到的问题特征向量进行参数计算,得到对应BN层的参数。4.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤,包括以下步骤:通过ImageNet数据库对输入的图像进行预训练;根据残差神经网络的卷积计算方法,对输入的图像进行特征向量提取。5.根据权利要求1所述的一种图像问答推理方法,其特征在于:所述采用batchnormalization运算方法,对转换得到的图像特征向量进行推理这一步骤,包括以下步骤:根据特征提取得到的图像特征向量,对BN层进行参数定义;根据参数定义后的B...

【专利技术属性】
技术研发人员:黄劲朱德明
申请(专利权)人:盈盛资讯科技有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1