当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于深度学习的图像语义生成方法技术

技术编号:18050597 阅读:49 留言:0更新日期:2018-05-26 08:24
本发明专利技术公开了一种基于深度学习的图像语义生成方法,该方法包括以下步骤:第一,通过图像整体语义生成要求,构建结合卷积神经网络和长段时间记忆网络的模型结构;第二,将人工标注好的图像输入到预训练好的卷积神经网络;第三,将人工标注的图像语义描述与卷积神经网络提取到的图像特征输入到长段时间记忆网络中;第四,根据生成的图像语义描述与人工标注信息进行计算其损失函数;第五,根据损失函数,反向传播优化卷积神经网络和长段时间记忆网络各个参数。本发明专利技术应用卷积神经网络技术和长短时间记忆网络生成图像语义描述。

【技术实现步骤摘要】
一种基于深度学习的图像语义生成方法
本专利技术涉及一种图像语义生成方法,尤其涉及基于深度学习的图像语义生成方法,属于图像处理

技术介绍
近年来,随着图像数量的剧增,人们迫切地需要实现图像内容的高效标注,以实现大规模图像的有效检索与管理。从模式识别的角度来看,将图像标注问题视为根据内容给图像分配一组标签,其中如何选取表征图像内容的合适特征,将在很大程度上影响标注性能。由于众所周知的语义鸿沟问题,现有技术进行图像语义标注时很难达到令人满意的结果。近年来,等人提出利用深度神经网络,从训练集中有效地训练特征。不同类型的深度神经网络,已成功应用于各种语言及信息检索。这些方法通过深度结构、深度学习从训练数据中发现隐藏的数据结构及有效的表征特征,提高了系统性能。现有的图像语义标注方法主要有以下两种实现方式。第一种是由计算机在整幅图像上提取特征,并对图像进行分类识别,也即,将整幅图像作为分类器的输入。然而,很多近似类别的图像的整体相似度很高,例如,不同型号的三厢轿车的图像可能只在若干细节上有区别,而从整幅图像上提取的特征往往不足以准确对这种细粒度的图像分类进行区分,语义标注效果差。第二种则是由人工确定图像的显著性区域,这些显著性区域可以体现不同的细粒度图像之间的差别,例如,不同品牌的车型的车标,不同品种的猫的眼睛。而后,再对这些显著性区域提取特征,进行细粒度的图像语义标注。但是,由于图像数据库中的像的数量巨大,要为每幅图像人工确定其显著性区域,显然会消耗极大的人力资源,限制了这种解决方案的可行性。更重要的是,以上两种方法都只能对于图像中具体目标进行标注,无法描述图像中各个目标之间存在的语义关联,也就是说,以上方法只能指明图中存在什么物体,但是无法“理解”图中物体之间正在“做什么”。因此,只有解决这一问题,才能使图像语义的自动理解更进一步发展。
技术实现思路
本专利技术的目的在于提出一种基于深度学习的图像语义生成方法,该方法首先使用了卷积神经网络CNN提取图像高层语义特征,有效避免了使用底层图像特征表达图像含义时产生的“语义鸿沟”问题。然后将提取的图像高层特征输入到训练好的长短时间记忆LSTM网络中生成图像的描述语句。该方法可以生成图像内容的描述性语句,远远优于传统的只能对图像中目标进行单独标注的方法。本专利技术采取的技术方案为:一种基于深度学习的图像语义生成方法,该方法主要包括以下步骤:步骤1:通过图像整体语义生成要求,构建结合卷积神经网络和长段时间记忆网络的模型结构;步骤2:通过训练数据,根据设定的结果损失函数,利用前向传导、反向传播和梯度下降优化算法对所述预训练好卷积神经网络进行训练得到卷积神经网络模型;步骤3:利用卷积神经网络提取的图像的高层特征与标注好的语义信息,根据设定的结果损失函数,利用前向传导、反向传播和梯度下降优化算法对长短时间记忆网络进行训练得到长短时间记忆网络模型,使用长短时间记忆网络对图像内容进行预测输出;步骤4:根据设定的结果损失函数,利用前向传导、反向传播和梯度下降优化算法训练数据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型。在本专利技术步骤2所述的深度神经网络中,为了避免网络在训练过程中陷入“过度拟合”的问题,本专利技术采取了一个预先训练的卷积神经网络。预训练卷积神经网络分别由输入层,卷积层,池化层、全连接层和输出层构成,并且使用前向传导、反向传播和梯度下降优化算法进行模型的优化。在上述的前向传导过程中,主要是数据由输入层到最终的输出层的处理过程。所述的输入层与卷积层的计算方法如下:假设第l层为输入层(也可以为上一次的卷积层或者池化层),第l+1层为卷积层,则输入层与卷积层之间的计算公式为:其中表示上一层的输入数据,为卷积层数据,Q为输入层数据集合,表示输入层与卷积层之间的权重矩阵,为预设偏置项,*为卷积操作,f为激活函数,在本专利技术中,激活函数设置为ReLu函数。卷积层和池化层之间的计算过程如下:其中表示卷积层数据,表示池化层数据,为乘积因子,down(·)表示下采样函数,本专利技术中采用平均值池化方法;所述的全连接层将卷积神经网络的最后一个池化层数据拼接成一个一维数据向量;输出层将全连接层数据进行激活函数处理得到训练数据的输出概率;上述的反向传播的具体实施方法如下:首先,构造卷积神经网络的整体代价函数,采用平方误差代价函数表示,则有:其中,c表示训练样本的个数,表示第n个样本的第k个输出;对所述输出层的每个单元i计算其输出残差:其中,为输出层l中节点i对应的残差,为该节点对应的输入加权和;以此类推,针对l层之前的每个层,其节点的残差的计算方法为:分别对权重矩阵和偏置项计算偏导:其中,为权重矩阵的偏导,为偏置项的偏导。上述的梯度下降优化的具体实施方法如下:其中,为更新后的权重矩阵,为更新后的偏置项,α为模型的学习比例。本专利技术步骤3中所提LSTM网络结构如图1所示。本专利技术使用长短时间记忆网络预测模型读到图像时生成的语义的单词,我们使用多个LSTM网络串行结构对单词进行预测。在训练过程中,前一个LSTM网络的预测输出与真实语义信息一起输入到下一个LSTM网络的输入。LSTM网络模型的核心在于记忆单元c将当前时刻的输入信息与之前时刻的信息联系起来决定当前时刻的输出单词,LSTM结构中主要存在四种门结构,分别为遗忘门ft,记忆门ct,输入门it和输出门ot。遗忘门决定是否要丢弃当前时刻的记忆门中的信息,输入门决定是否读入当前时刻的输入信息,输出门决定是都要输出当前时刻记忆门中的信息。四种门的定义和更新方法如下:it=σ(Wixxt+Wimmt-1)(10)ft=σ(Wfxxt+Wfmmt-1)(11)ot=σ(Woxxt+Wommt-1)(12)ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1)(13)mt=ot⊙ct(14)pt+1=Softmax(mt)(15)其中⊙表示卷积操作,W表示参数矩阵。本专利技术步骤4中所提的完整的基于深度学习的图像语义生成模型如图2所示。所述模型中,使用最小化损失函数确定卷积神经网络提取的图像特征对应的正确描述,损失函数定义如下:Ld=-logp(S|I;θ)(16)那么,最小化损失函数公式为:θ是模型参数,I表示图像,S表示图像对应的语义描述。上述中:在训练阶段,(S|I)是作为训练数据对同时输入。通过以上步骤,本专利技术实现了一种利用卷积神经网络和长短时间记忆网络模型来产生图像语义描述的方法。本专利技术具有以下优点:1、本专利技术所提供的基于深度学习的图像语义生成方法能够对图像中的各个目标进行语义关联,能够给出图像内容的完整描述,这是之前方法无法实现的功能。2、本专利技术在使用卷积神经网络提取图像高层语义特征阶段使用预训练好的卷积神经网络以避免网络陷入“过拟合”问题。3、本专利技术采用先分离再联合的训练方法,可以有效提高模型的性能。附图说明图1为本专利技术所用长短时间记忆网络图2为本专利技术所构建基于深度学习的图像语义生成模型图3为本专利技术图像语义生成流程图具体实施方案为解决当前图像标注方法只能针对单个目标进行标注,无法将图像中各概念主题联系的问题,本专利技术提供了一种基于深度学习的图像语义生成方法。下面结合说明书附图对本专利技术作进一步详细说明。步骤1:由于在训练数据本文档来自技高网
...
一种基于深度学习的图像语义生成方法

【技术保护点】
一种基于深度学习的图像语义生成方法;其特征在于,所述的方法基于深度学习的图像语义生成主要包含如下步骤:步骤1:通过图像整体语义生成要求,构建一种结合卷积神经网络和长段时间记忆网络的模型结构;步骤2:为解决“过拟合”问题,使用其他数据预训练卷积神经网络,得到预训练好的卷积神经网络,通过训练数据对所述预训练好卷积神经网络进行训练得到卷积神经网络模型;步骤3:通过卷积神经网络提取的图像高层特征和正确的语义信息对长短时间记忆网络进行训练得到长短时间记忆网络模型,然后通过训练数据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型;步骤4:将图像输入到得到的模型中,生成图像内容的语义描述。

【技术特征摘要】
1.一种基于深度学习的图像语义生成方法;其特征在于,所述的方法基于深度学习的图像语义生成主要包含如下步骤:步骤1:通过图像整体语义生成要求,构建一种结合卷积神经网络和长段时间记忆网络的模型结构;步骤2:为解决“过拟合”问题,使用其他数据预训练卷积神经网络,得到预训练好的卷积神经网络,通过训练数据对所述预训练好卷积神经网络进行训练得到卷积神经网络模型;步骤3:通过卷积神经网络提取的图像高层特征和正确的语义信息对长短时间记忆网络进行训练得到长短时间记忆网络模型,然后通过训练数据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型;步骤4:将图像输入到得到的模型中,生成图像内容的语义描述。2.根据权利要求1所述的一种基于深度学习的图像语义生成方法,其特征在于:在步骤1中所使用结合卷积神经网络和长段时间记忆网络的模型结构,为了能够完整提取图像内容语义,设计一种结合卷积神经网络和长短时间记忆网络的图像语义生成模型;使用卷积神经网络提取图像的高层语义特征,可以有效避免“语义鸿沟”问题,卷积神经网络提取的特征只在第一次输入到长短时间记忆网络中,有:x-1=CNN(I)其中CNN()表示提取卷积神经网络特征;长短时间记忆网络根据提取的图像特征和正确的语义信息进行预测图像对应特征生成的对应单词,有:pt+1=LSTM(xt),t∈...

【专利技术属性】
技术研发人员:张威周治平
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1