一种基于深度学习的图像语义生成方法技术

技术编号：18050597 阅读：49 留言：0更新日期：2018-05-26 08:24

本发明专利技术公开了一种基于深度学习的图像语义生成方法，该方法包括以下步骤：第一，通过图像整体语义生成要求，构建结合卷积神经网络和长段时间记忆网络的模型结构；第二，将人工标注好的图像输入到预训练好的卷积神经网络；第三，将人工标注的图像语义描述与卷积神经网络提取到的图像特征输入到长段时间记忆网络中；第四，根据生成的图像语义描述与人工标注信息进行计算其损失函数；第五，根据损失函数，反向传播优化卷积神经网络和长段时间记忆网络各个参数。本发明专利技术应用卷积神经网络技术和长短时间记忆网络生成图像语义描述。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的图像语义生成方法
本专利技术涉及一种图像语义生成方法，尤其涉及基于深度学习的图像语义生成方法，属于图像处理

技术介绍
近年来，随着图像数量的剧增，人们迫切地需要实现图像内容的高效标注，以实现大规模图像的有效检索与管理。从模式识别的角度来看，将图像标注问题视为根据内容给图像分配一组标签，其中如何选取表征图像内容的合适特征，将在很大程度上影响标注性能。由于众所周知的语义鸿沟问题，现有技术进行图像语义标注时很难达到令人满意的结果。近年来，等人提出利用深度神经网络，从训练集中有效地训练特征。不同类型的深度神经网络，已成功应用于各种语言及信息检索。这些方法通过深度结构、深度学习从训练数据中发现隐藏的数据结构及有效的表征特征，提高了系统性能。现有的图像语义标注方法主要有以下两种实现方式。第一种是由计算机在整幅图像上提取特征，并对图像进行分类识别，也即，将整幅图像作为分类器的输入。然而，很多近似类别的图像的整体相似度很高，例如，不同型号的三厢轿车的图像可能只在若干细节上有区别，而从整幅图像上提取的特征往往不足以准确对这种细粒度的图像分类进行区分，语义标注效果差。第二种则是由人工确定图像的显著性区域，这些显著性区域可以体现不同的细粒度图像之间的差别，例如，不同品牌的车型的车标，不同品种的猫的眼睛。而后，再对这些显著性区域提取特征，进行细粒度的图像语义标注。但是，由于图像数据库中的像的数量巨大，要为每幅图像人工确定其显著性区域，显然会消耗极大的人力资源，限制了这种解决方案的可行性。更重要的是，以上两种方法都只能对于图像中具体目标进行标注，无法描述...
一种基于深度学习的图像语义生成方法

【技术保护点】
一种基于深度学习的图像语义生成方法；其特征在于，所述的方法基于深度学习的图像语义生成主要包含如下步骤：步骤1：通过图像整体语义生成要求，构建一种结合卷积神经网络和长段时间记忆网络的模型结构；步骤2：为解决“过拟合”问题，使用其他数据预训练卷积神经网络，得到预训练好的卷积神经网络，通过训练数据对所述预训练好卷积神经网络进行训练得到卷积神经网络模型；步骤3：通过卷积神经网络提取的图像高层特征和正确的语义信息对长短时间记忆网络进行训练得到长短时间记忆网络模型，然后通过训练数据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型；步骤4：将图像输入到得到的模型中，生成图像内容的语义描述。

【技术特征摘要】
1.一种基于深度学习的图像语义生成方法；其特征在于，所述的方法基于深度学习的图像语义生成主要包含如下步骤：步骤1：通过图像整体语义生成要求，构建一种结合卷积神经网络和长段时间记忆网络的模型结构；步骤2：为解决“过拟合”问题，使用其他数据预训练卷积神经网络，得到预训练好的卷积神经网络，通过训练数据对所述预训练好卷积神经网络进行训练得到卷积神经网络模型；步骤3：通过卷积神经网络提取的图像高层特征和正确的语义信息对长短时间记忆网络进行训练得到长短时间记忆网络模型，然后通过训练数据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型；步骤4：将图像输入到得到的模型中，生成图像内容的语义描述。2.根据权利要求1所述的一种基于深度学习的图像语义生成方法，其特征在于：在步骤1中所使用结合卷积神经网络和长段时间记忆网络的模型结构，为了能够完整提取图像内容语义，设计一种结合卷积神经网络和长短时间记忆网络的图像语义生成模型；使用卷积神经网络提取图像的高层语义特征，可以有效避免“语义鸿沟”问题，卷积神经网络提取的特征只在第一次输入到长短时间记忆网络中，有：x-1＝CNN(I)其中CNN()表示提取卷积神经网络特征；长短时间记忆网络根据提取的图像特征和正确的语义信息进行预测图像对应特征生成的对应单词，有：pt+1＝LSTM(xt)，t∈...

【专利技术属性】
技术研发人员：张威，周治平，
申请(专利权)人：江南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人