当前位置: 首页 > 专利查询>广东顺德中山大学卡内基梅隆大学国际联合研究院专利>正文

基于FCN特征提取的多模态循环神经网络图像描述方法技术

技术编号：15639380 阅读：261 留言：0更新日期：2017-06-15 23:10

本发明专利技术提供一种基于FCN特征提取的多模态循环神经网络图像描述方法，通过对海量已标注文本描述的图像训练得到一个由三部分(循环神经网络RNN，全卷积神经网络FCN，多模态层)组成的多模态模型，并实现对任意输入测试图像的文本描述的自动生成，该发明专利技术能够有效地提取图像特征，并保留图像更多的细节信息，能更好建立文本描述中单词和图像的联系。对基于语义上，图像显著目标或场景间的描述有很好的表现。

全部详细技术资料下载

【技术实现步骤摘要】
基于FCN特征提取的多模态循环神经网络图像描述方法
本专利技术涉及人工智能领域，更具体地，涉及一种基于FCN特征提取的多模态循环神经网络图像描述方法。
技术介绍
近年来，循环神经网络RNN与卷积神经网络CNN分别在自然语言处理与图像分类处理取得成功，使得机器学习领域上出现了一种结合循环神经网络与卷积神经网络用于自动生成图像描述的方法。自动生成图像描述是人工智能的重要分支，它可以广泛应用于图像检索，盲人导航等方面。因此，受到了越来越多研究人员的关注。2011年，Mikolov等人提出了用于自然语言处理的循环神经网络模型，该模型在对话识别和词语特征提取等方面，都获得了最好的效果。2012年，Krizhevsky等人提出了一种8层的卷积神经网络模型AlexNet，其在图像分类的准确性大幅度超越了以往的各种模型。2015年，JunhuaMao将以上述两模型为基础，提出了多模态循环神经网络M-RNN，较好的融合了语言模型与图像模型。虽然M-RNN在各个测试标准下都可以取得不错的成绩，但是该模型只能对图像中面积较大的目标生成描述。对于一些在图像中所占面积较少的区域，其信息在卷积神经网络提取图像特征时已丢失，所以无法生成这些丢失区域的图像描述。因此，该模型忽略了图中较多的细节信息导致了不能生成更完整的图像描述。
技术实现思路
本专利技术提供一种基于FCN特征提取的多模态循环神经网络图像描述方法，该方法可以自动识别、理解输入的图像。为了达到上述技术效果，本专利技术的技术方案如下：一种基于FCN特征提取的多模态循环神经网络图像描述方法，包括构建每一时间帧的多模态循环神经网络模型...

【技术保护点】
一种基于FCN特征提取的多模态循环神经网络图像描述方法，其特征在于，包括构建每一时间帧的多模态循环神经网络模型，过程如下：S1：构造与训练全卷积网络FCN；S2：构造与训练多模态循环神经网络M‑RNN；S3：利用得到的全卷积网络FCN和多模态循环神经网络M‑RNN自动生成图像描述。

【技术特征摘要】
1.一种基于FCN特征提取的多模态循环神经网络图像描述方法，其特征在于，包括构建每一时间帧的多模态循环神经网络模型，过程如下：S1：构造与训练全卷积网络FCN；S2：构造与训练多模态循环神经网络M-RNN；S3：利用得到的全卷积网络FCN和多模态循环神经网络M-RNN自动生成图像描述。2.根据权利要求1所述的基于FCN特征提取的多模态循环神经网络图像描述方法，其特征在于，所述步骤S1的具体过程如下：S11：采集日常生活中各类场景里面的图像作为训练图像，每张训练图像带上经过处理后得到的关于该图像的标准特征图；S12：将现有的已训练好的卷积神经网络模型进行调整得到初步全卷积网络模型；S13：删除现有卷积神经网络的分类层，并将全连接层转换为卷积层；S14：对最高层池化层n卷积后的结果进行上抽样，得到该池化层的上抽样预测为：Pre_Up(n)；S15：对上一层池化层n-1进行卷积核为1×1卷积运算，得到该池化层的预测结果为：Pre_Pool(n-1)；S16：将上述两预测结果Pre_Up(n)与Pre_Pool(n-1)进行求和，再进行上抽样，得到上抽样预测为：Pre_Up[Pre_Up(n)+Pre_Pool(n-1)]；S17:对再上一层池化层n-2进行卷积核为1×1卷积运算，得到该池化层的预测结果为：Pre_Pool(n-2)；S18:将Pre_Up[Pre_Up(n)+Pre_Pool(n-1)]与Pre_Pool(n-2)求和，再进行上抽样得到与原输入图像大小相同的具有更多细节信息的密集预测结果：Pre_Up{[Pre_Up(n)+Pre_Pool(n-1)]+Pre_Pool(n-2)}；S19:最高的上抽样层的反卷积核(上抽样倍数)由双线性插值法确定，是固定的，而模型中间的上抽样层的反卷积核由双线性插值法初始化，并在训练中进行学习；S20:输入具有标准特征图的图像，利用随机梯度下降进行全图像训练，并对全卷积神经网络里所有层的参数进行微调，得到更好的密集预测结果。3.根据权利要求2所述的基于FCN特征提取的多模态循环神经网络图像描述方法，其特征在于，所述步骤S2的具体过程如下：S21：在互联网上搜集日常生活中的各类图像作为训练图像，并且每张训练图像都带上一句或若干句描述该图像内容的句子；S22：每一时刻仅输入描述句子中的一个单词，该单词先输入到两层的词嵌入层，两层词嵌入层能更有效提取单词信息，该层对单词在句子中的语义信息和语法信息进行提取，并转换为密集的特征向量w(t)表示；S23：将特征向量w(t)输入到循环层，结合上一时刻的循环层的输出，计算当前时刻循环层的特征信息r(t)＝f2(Ur·r(t-1)+w(t))，一方面将该特征信息传给下一时刻的循环层，另一方面将该特征信息输入到当前时刻的多模态层；S24：多模态层用于连结第二层...

【专利技术属性】
技术研发人员：胡海峰，王伟轩，张俊轩，杨梁，王腾，
申请(专利权)人：广东顺德中山大学卡内基梅隆大学国际联合研究院，中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人