基于卷积-循环混合网络的图像描述模型的一体化训练方法技术

技术编号：19009566 阅读：15 留言：0更新日期：2018-09-22 09:23

本发明专利技术公开了基于卷积‑循环混合网络的图像描述模型的一体化训练生成方法，该方法主要是把卷积神经网络与循环神经网络联合起来进行一体化训练，分别对卷积神经网络与循环神经网络进行构建，然后使用TensorFlow框架对两者进行联合训练，该方法的使用大大优化了训练过程，只需要在准备原始图片与相应文本作为输入，即可完成整体训练，并且达到了两个网络参数同时进行更新的效果，使结果得到更好的效果。

Integrated training method of image description model based on convolution cyclic mixed network

The invention discloses an integrated training and generating method of image description model based on convolution_cyclic hybrid network. The method mainly combines convolution neural network and cyclic neural network for integrated training, constructs convolution neural network and cyclic neural network respectively, and then uses TensorFlow framework to train two kinds of neural networks. The training process is greatly optimized by using this method. The whole training can be completed only by preparing the original picture and the corresponding text as input, and the two network parameters are updated simultaneously, so that the result is better.

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积-循环混合网络的图像描述模型的一体化训练方法
本专利技术属于人工智能深度学习领域，主要实现了对输入图像生成英文文本描述的一体化训练的方法。
技术介绍
现阶段的社会，互联网已经站在了主流地位上，而人工智能更是主流中的主流。人们已经慢慢接受并且渐渐离不开人工智能，现阶段越来越多的人工智能技术走入人们的生活，自动翻译、物体识别、人脸识别等，图像的文本描述也逐渐被人们重视，该技术的实现对图像识别、图像检测，以及游人旅游、盲人导航等方面都有着至关重要的作用。该技术的前提条件是需要了解深度学习中的卷积神经网络与循环神经网络的技术细节，卷积神经网络是提取图像特征从而用来表示图像的网络模型，该模型内部主要由若干卷积层、池化层和全连接层组成，经过训练后的卷积神经网络模型可以对输入的图像经过一系列的卷积、池化的操作，最后经过全连接层生成一个可以用来表示图像向量。循环神经网络中的长短时记忆网络(LSTM)被广泛认可，该网络具有时序性，含有”cell”模块，可以记住并结合之前的信息生成之后的信息，训练过后长短时记忆网络模型(LSTM)会根据输入的图像生产相应的文本描述。现阶段的图像描述技术大都分为两个单独的步骤去实现，首先单独使用已经训练好的卷积神经网络模型对图像进行特征提取，把图片特征单独存储起来，把文本的单词也都存在相应的文件中，然后再使用长短时记忆网络(LSTM)对图片与文本进行训练，生成模型。但是该方法的操作周期较长，而且实行训练的过程复杂，使得目前的方法很难被大家所采用。
技术实现思路
本专利技术采用的技术方案为一种基于卷积-循环混合网络的图像描述模型的一体化训练生...
基于卷积-循环混合网络的图像描述模型的一体化训练方法

【技术保护点】
1.基于卷积‑循环混合网络的图像描述模型的一体化训练生成方法，该方法根据输入的图像，经过模型产生对于该图像内容描述的句子，其特征在于：以下步骤，步骤1：选择数据集，其中数据集的数据主要包括图像和与图像相对应的文本描述，一张图像分别对应五个句子；步骤2：对图像进行预处理，根据不同网络的输入要求对图像进行调整；步骤3：对图像进行特征提取，具体步骤如下：步骤3.1：选择卷积神经网络，对卷积神经网络进行参数设置，使用该卷积神经网络在ImageNet数据集上经过训练学习到的参数作为网络的初始化参数；步骤3.2：对卷积神经网络的结构进行调整，使卷积神经网络截至于全连接层，对输入的图像通过卷积神经网络后以向量的形式表示；步骤4：对文本进行预处理，对其进行关键词提取，提取次数大于30的单词作为关键词制作一个字典，把关键词均以向量的形式进行表示；步骤5：构建长短时记忆网络；步骤6：联合卷积神经网络和长短时记忆网络进行一体化训练；步骤6.1：选择深度学习框架，为了方便卷积神经网络与长短时记忆网络的联合操作需要在同一框架中使用统一的格式来进行构建；步骤6.2：输入一张图像，通过卷积神经网络对其特征进行提取，...

【技术特征摘要】
1.基于卷积-循环混合网络的图像描述模型的一体化训练生成方法，该方法根据输入的图像，经过模型产生对于该图像内容描述的句子，其特征在于：以下步骤，步骤1：选择数据集，其中数据集的数据主要包括图像和与图像相对应的文本描述，一张图像分别对应五个句子；步骤2：对图像进行预处理，根据不同网络的输入要求对图像进行调整；步骤3：对图像进行特征提取，具体步骤如下：步骤3.1：选择卷积神经网络，对卷积神经网络进行参数设置，使用该卷积神经网络在ImageNet数据集上经过训练学习到的参数作为网络的初始化参数；步骤3.2：对卷积神经网络的结构进行调整，使卷积神经网络截至于全连接层，对输入的图像通过卷积神经网络后以向量的形式表示；步骤4：对文本进行预处理，对其进行关键词提取，提取次数大于30的单词作为关键词制作一个字典，把关键词均以向量的...

【专利技术属性】
技术研发人员：李玉鑑，刘超，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人