基于FCN特征提取的多模态循环神经网络图像描述方法技术

技术编号:15639380 阅读:261 留言:0更新日期:2017-06-15 23:10
本发明专利技术提供一种基于FCN特征提取的多模态循环神经网络图像描述方法,通过对海量已标注文本描述的图像训练得到一个由三部分(循环神经网络RNN,全卷积神经网络FCN,多模态层)组成的多模态模型,并实现对任意输入测试图像的文本描述的自动生成,该发明专利技术能够有效地提取图像特征,并保留图像更多的细节信息,能更好建立文本描述中单词和图像的联系。对基于语义上,图像显著目标或场景间的描述有很好的表现。

【技术实现步骤摘要】
基于FCN特征提取的多模态循环神经网络图像描述方法
本专利技术涉及人工智能领域,更具体地,涉及一种基于FCN特征提取的多模态循环神经网络图像描述方法。
技术介绍
近年来,循环神经网络RNN与卷积神经网络CNN分别在自然语言处理与图像分类处理取得成功,使得机器学习领域上出现了一种结合循环神经网络与卷积神经网络用于自动生成图像描述的方法。自动生成图像描述是人工智能的重要分支,它可以广泛应用于图像检索,盲人导航等方面。因此,受到了越来越多研究人员的关注。2011年,Mikolov等人提出了用于自然语言处理的循环神经网络模型,该模型在对话识别和词语特征提取等方面,都获得了最好的效果。2012年,Krizhevsky等人提出了一种8层的卷积神经网络模型AlexNet,其在图像分类的准确性大幅度超越了以往的各种模型。2015年,JunhuaMao将以上述两模型为基础,提出了多模态循环神经网络M-RNN,较好的融合了语言模型与图像模型。虽然M-RNN在各个测试标准下都可以取得不错的成绩,但是该模型只能对图像中面积较大的目标生成描述。对于一些在图像中所占面积较少的区域,其信息在卷积神经网络提取图像特征时已丢失,所以无法生成这些丢失区域的图像描述。因此,该模型忽略了图中较多的细节信息导致了不能生成更完整的图像描述。
技术实现思路
本专利技术提供一种基于FCN特征提取的多模态循环神经网络图像描述方法,该方法可以自动识别、理解输入的图像。为了达到上述技术效果,本专利技术的技术方案如下:一种基于FCN特征提取的多模态循环神经网络图像描述方法,包括构建每一时间帧的多模态循环神经网络模型,过程如下:S1:构造与训练全卷积网络FCN;S2:构造与训练多模态循环神经网络M-RNN;S3:利用得到的全卷积网络FCN和多模态循环神经网络M-RNN自动生成图像描述。进一步地,所述步骤S1的具体过程如下:S11:采集日常生活中各类场景里面的图像作为训练图像,每张训练图像带上经过处理后得到的关于该图像的标准特征图;S12:将现有的已训练好的卷积神经网络模型进行调整得到初步全卷积网络模型;S13:删除现有卷积神经网络的分类层,并将全连接层转换为卷积层;S14:对最高层池化层n卷积后的结果进行上抽样,得到该池化层的上抽样预测为:Pre_Up(n);S15:对上一层池化层n-1进行卷积核为1×1卷积运算,得到该池化层的预测结果为:Pre_Pool(n-1);S16:将上述两预测结果Pre_Up(n)与Pre_Pool(n-1)进行求和,再进行上抽样,得到上抽样预测为:Pre_Up[Pre_Up(n)+Pre_Pool(n-1)];S17:对再上一层池化层n-2进行卷积核为1×1卷积运算,得到该池化层的预测结果为:Pre_Pool(n-2);S18:将Pre_Up[Pre_Up(n)+Pre_Pool(n-1)]与Pre_Pool(n-2)求和,再进行上抽样得到与原输入图像大小相同的具有更多细节信息的密集预测结果:Pre_Up{[Pre_Up(n)+Pre_Pool(n-1)]+Pre_Pool(n-2)};S19:最高的上抽样层的反卷积核(上抽样倍数)由双线性插值法确定,是固定的,而模型中间的上抽样层的反卷积核由双线性插值法初始化,并在训练中进行学习;S20:输入具有标准特征图的图像,利用随机梯度下降进行全图像训练,并对全卷积神经网络里所有层的参数进行微调,得到更好的密集预测结果。进一步地,所述步骤S2的具体过程如下:S21:在互联网上搜集日常生活中的各类图像作为训练图像,并且每张训练图像都带上一句或若干句描述该图像内容的句子;S22:每一时刻仅输入描述句子中的一个单词,该单词先输入到两层的词嵌入层,两层词嵌入层能更有效提取单词信息,该层对单词在句子中的语义信息和语法信息进行提取,并转换为密集的特征向量w(t)表示;S23:将特征向量w(t)输入到循环层,结合上一时刻的循环层的输出,计算当前时刻循环层的特征信息r(t)=f2(Ur·r(t-1)+w(t)),一方面将该特征信息传给下一时刻的循环层,另一方面将该特征信息输入到当前时刻的多模态层;S24:多模态层用于连结第二层词嵌入层的输出特征、当前时刻循环层的输出特征、全卷积网络FCN所提取的图像特征,将三种特征信息映射到统一的多模态空间m(t)=g2(Vw·w(t)+Vr·r(t)+VI·I);S25:将多模态空间特征m(t)输入到SoftMax层,输出下一个出现的单词的预测概率分布;S26:训练时,各层的参数随机初始化,并采用损失函数的反向传导算法对该模型的语言部分进行训练。进一步地,所述步骤S3的具体过程如下:S31:将与日常生活相关的图像输入到多模态神经网络M-RNN,全卷积网络FCN对该图像进行信息特征提取,结合低层卷积层的精细信息与高层卷积层的全局信息,输出具有更多细节信息的点到点的关于该图像密集预测结果;S32:根据所输出的图像密集预测,多模态神经网络M-RNN的多模态层将其映射到多模态空间,再通过Softmax计算下一个出现的单词的概率分布,选取概率最大的单词作为该时刻的单词输出,即描述语句的首个单词w1;S33:将上一时刻输出的预测单词输入到多模态神经网络M-RNN的词嵌入层,提取该单词语义信息和语法信息,并转换为密集的特征向量w(t)表示;S34:将特征向量w(t)输入到循环层,结合上一时刻的循环层的输出,计算当前时刻循环层的特征信息r(t)=f2(Ur·r(t-1)+w(t)),一方面将该特征信息传给下一时刻的循环层,另一方面将该特征信息输入到当前时刻的多模态层;S35:多模态层用于连结第二层词嵌入层的输出特征、当前时刻循环层的输出特征、全卷积网络FCN所提取的图像特征,将三种特征信息映射到统一的多模态空间m(t)=g2(Vw·w(t)+Vr·r(t)+VI·I);S36:将多模态空间特征m(t)输入到SoftMax层,计算出下一个出现的单词的预测概率分布,选取概率最大的单词作为该时刻的单词输出,即描述句子的第二个单词w2;S37:将该预测单词输入到多模态神经网络M-RNN的词嵌入层,如此循环,直到生成一个完整的描述句子。进一步地,所述步骤S4中,多模态层用于连结第二层词嵌入层的输出特征、当前时刻循环层的输出特征、全卷积网络FCN所提取的图像特征,将三种特征信息映射到统一的多模态空间m(t)=g2(Vw·w(t)+Vr·r(t)+VI·I);其中,Vw、Vr、VI分别为词嵌入层特征、循环层特征、图像特征所对应投影权重系数矩阵,g2为调整过的双曲正切函数它使梯度处于最大非线性范围,能加快训练进程。进一步地,采用对数似然损失函数对模型进行训练,通过最小化损失函数,误差反向传导来更新模型参数。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术提供一种基于FCN图像特征提取的多模态循环神经网络M-RNN的图像描述生成方法,通过对海量已标注文本描述的图像训练得到一个由三部分(循环神经网络RNN,全卷积神经网络FCN,多模态层)组成的多模态模型,并实现对任意输入测试图像的文本描述的自动生成。RNN处理文本描述,FCN提取具有细节信息的图像特征,再用多模态层将文本特征信息、循环层特征信息、图像信本文档来自技高网...
基于FCN特征提取的多模态循环神经网络图像描述方法

【技术保护点】
一种基于FCN特征提取的多模态循环神经网络图像描述方法,其特征在于,包括构建每一时间帧的多模态循环神经网络模型,过程如下:S1:构造与训练全卷积网络FCN;S2:构造与训练多模态循环神经网络M‑RNN;S3:利用得到的全卷积网络FCN和多模态循环神经网络M‑RNN自动生成图像描述。

【技术特征摘要】
1.一种基于FCN特征提取的多模态循环神经网络图像描述方法,其特征在于,包括构建每一时间帧的多模态循环神经网络模型,过程如下:S1:构造与训练全卷积网络FCN;S2:构造与训练多模态循环神经网络M-RNN;S3:利用得到的全卷积网络FCN和多模态循环神经网络M-RNN自动生成图像描述。2.根据权利要求1所述的基于FCN特征提取的多模态循环神经网络图像描述方法,其特征在于,所述步骤S1的具体过程如下:S11:采集日常生活中各类场景里面的图像作为训练图像,每张训练图像带上经过处理后得到的关于该图像的标准特征图;S12:将现有的已训练好的卷积神经网络模型进行调整得到初步全卷积网络模型;S13:删除现有卷积神经网络的分类层,并将全连接层转换为卷积层;S14:对最高层池化层n卷积后的结果进行上抽样,得到该池化层的上抽样预测为:Pre_Up(n);S15:对上一层池化层n-1进行卷积核为1×1卷积运算,得到该池化层的预测结果为:Pre_Pool(n-1);S16:将上述两预测结果Pre_Up(n)与Pre_Pool(n-1)进行求和,再进行上抽样,得到上抽样预测为:Pre_Up[Pre_Up(n)+Pre_Pool(n-1)];S17:对再上一层池化层n-2进行卷积核为1×1卷积运算,得到该池化层的预测结果为:Pre_Pool(n-2);S18:将Pre_Up[Pre_Up(n)+Pre_Pool(n-1)]与Pre_Pool(n-2)求和,再进行上抽样得到与原输入图像大小相同的具有更多细节信息的密集预测结果:Pre_Up{[Pre_Up(n)+Pre_Pool(n-1)]+Pre_Pool(n-2)};S19:最高的上抽样层的反卷积核(上抽样倍数)由双线性插值法确定,是固定的,而模型中间的上抽样层的反卷积核由双线性插值法初始化,并在训练中进行学习;S20:输入具有标准特征图的图像,利用随机梯度下降进行全图像训练,并对全卷积神经网络里所有层的参数进行微调,得到更好的密集预测结果。3.根据权利要求2所述的基于FCN特征提取的多模态循环神经网络图像描述方法,其特征在于,所述步骤S2的具体过程如下:S21:在互联网上搜集日常生活中的各类图像作为训练图像,并且每张训练图像都带上一句或若干句描述该图像内容的句子;S22:每一时刻仅输入描述句子中的一个单词,该单词先输入到两层的词嵌入层,两层词嵌入层能更有效提取单词信息,该层对单词在句子中的语义信息和语法信息进行提取,并转换为密集的特征向量w(t)表示;S23:将特征向量w(t)输入到循环层,结合上一时刻的循环层的输出,计算当前时刻循环层的特征信息r(t)=f2(Ur·r(t-1)+w(t)),一方面将该特征信息传给下一时刻的循环层,另一方面将该特征信息输入到当前时刻的多模态层;S24:多模态层用于连结第二层...

【专利技术属性】
技术研发人员:胡海峰王伟轩张俊轩杨梁王腾
申请(专利权)人:广东顺德中山大学卡内基梅隆大学国际联合研究院中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1