一种基于RNN的图片描述自动生成方法技术

技术编号：14848812 阅读：135 留言：0更新日期：2017-03-17 22:17

本发明专利技术公开了一种于RNN的图片描述自动生成方法，先使用预训练好的深度网络，对图像提取特征；再对该句子的单词去掉非名词和动词的成分；最后使用LSTM网络对图像特征和词语特征进行联合训练；在生成句子过程中，首先通过输入的图片和训练好的LSTM网络，生成一个名动词组成的句子；然后通过网络上的大量语料库，生成最后的输出句子。本发明专利技术可以自动识别，理解用户上传的数码图像，并生成人类能理解的自然句子。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，特别涉及一种基于RNN的图片描述自动生成方法。
技术介绍
自动图像内容描述是人工智能图像识别近年兴起的新技术。其目的在于通过算法，自动把一个图像的内容信息，用自然语言表达出来。ShowandTell:ANeuralImageCaptionGenerator，OriolVinyals2014，通过先使用深度网络提取图像特征，再使用RNN模型将图像特征转化为文字描述，提取出图像的语义信息。但其是对整个图像进行整体处理，不能很好地利用图像中的空间位置的信息。Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention,KelvinXu2015，在其之上加入了显著性检测，对图像的空间信息有一定的利用，但其也只利用了简单的RNN模型，语义的表达力较弱。
技术实现思路
为了克服现有技术的上述缺点与不足，本专利技术的目的在于提供一种基于RNN的图片描述自动生成方法，可以自动识别，理解用户上传的数码图像，并生成人类能理解的自然句子。本专利技术的目的通过以下技术方案实现：一种基于RNN的图片描述自动生成方法，包括以下步骤：S1在计算机上进行训练过程：S1.1采集数据集：采集日常生活中各类场景里面的图像作为训练图像，每张训练图像带上一句或多句描述该图像内容的句子；S1.2使用深度学习网络，对训练集的每一张图片提取图...

【技术保护点】
一种基于RNN的图片描述自动生成方法，其特征在于，包括以下步骤：S1在计算机上进行训练过程：S1.1采集数据集：采集日常生活中各类场景里面的图像作为训练图像，每张训练图像带上一句或多句描述该图像内容的句子；S1.2使用深度学习网络，对训练集的每一张图片提取图像特征；S1.3词性筛选：收集四、六级英语单词的词汇表，以及每个单词的词性；对于每张训练图像对应的一个或多个句子进行词性筛选：对于句子中的每个单词，如果单词在四、六级词汇表中排第一的词性是名词或者动词，该单词留下，否则，把该单词去掉；使用筛选之后剩下的单词组成句子作为数据库；S1.4将词语数据转换成特征向量：统计出S1.3中的数据库中所有句子中出现的不同单词的数目，加上一个自定义的END字符，句子的总字符数为n；并对单词按字母顺序进行排序，每个单词在序列中的位置作为该单词的索引位置；由此把每个单词表示为一个n维的单词特征向量，该向量只有在该单词的索引位置上为1，其他全为零；n为正整数；S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量；k为正整数；S1.6使用LSTM网络进行训练：每个训练样例为一张训练图像和该训练图像所...

【技术特征摘要】
1.一种基于RNN的图片描述自动生成方法，其特征在于，包括以下步骤：
S1在计算机上进行训练过程：
S1.1采集数据集：采集日常生活中各类场景里面的图像作为训练图像，每
张训练图像带上一句或多句描述该图像内容的句子；
S1.2使用深度学习网络，对训练集的每一张图片提取图像特征；
S1.3词性筛选：收集四、六级英语单词的词汇表，以及每个单词的词性；
对于每张训练图像对应的一个或多个句子进行词性筛选：对于句子中的每
个单词，如果单词在四、六级词汇表中排第一的词性是名词或者动词，该单词
留下，否则，把该单词去掉；使用筛选之后剩下的单词组成句子作为数据库；
S1.4将词语数据转换成特征向量：统计出S1.3中的数据库中所有句子中出
现的不同单词的数目，加上一个自定义的END字符，句子的总字符数为n；并
对单词按字母顺序进行排序，每个单词在序列中的位置作为该单词的索引位置；
由此把每个单词表示为一个n维的单词特征向量，该向量只有在该单词的索引
位置上为1，其他全为零；n为正整数；
S1.5将单词特征向量和图像特征向量统一映射到同一维度k的向量；k为
正整数；
S1.6使用LSTM网络进行训练：每个训练样例为一张训练图像和该训练图
像所对应的经S1.3筛选的句子；每次随机选择一张训练图像和一个对应的参考
句子；
S1.7将LSTM网络的输入和输出都设为k维向量，在时刻0，把k维的图
像特征向量传入LSTM网络，网络输出一个k维向量；然后将输出的k维向量
左乘一个n*k维的矩阵，得到一个n维向量；向量上第i维的值代表了索引值
为i的单词的可能性；i为正整数；
S1.8使用S1.7得到的n维向量和S1.6中输入的参考句子的n维向量进行
比较，计算两个向量的欧式距离，作为LSTM网络的误差，使用反向误差传播
算法，更新网络参数；
S2自动生成图像描述:
S2.1在...

【专利技术属性】
技术研发人员：郭礼华，廖启俊，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人