【技术实现步骤摘要】
一种基于融合门循环网络模型的图像转语言方法
本专利技术涉及图像识别
,具体涉及一种基于融合门循环网络模型的图像转语言方法。
技术介绍
图像理解是计算机视觉领域研究中的核心和热点问题,该问题的核心是如何将一幅图像转化成一句话,这句话就描述了这幅图像的内容。使用计算机程序达到类似的效果面临诸多问题,因为图像理解需要考虑多方面的因素,比如如何利用图像的特征信息、如何将理解的知识转换成一段文字描述以及如何将这些过程转换成逻辑代码,对于传统的计算机算法而言,实现这项工作的难度巨大。
技术实现思路
鉴于现有技术存在的上述问题,本专利技术提供一种基于融合门循环网络模型的图像转语言方法,所采用的网络模型以编码器-解码器作为整体结构框架,并将注意力机制嵌入到语言模型之中,该网络模型是图像的空间信息与时间信息的融合,相对于以前的研究,本专利技术在实现图像理解上的效果更好,速度更快。本专利技术的技术方案为:一种基于融合门循环网络模型的图像转语言方法,包括:(1)将图像数据集中的图像随机纳入训练集,将训练集 ...
【技术保护点】
1.一种基于融合门循环网络模型的图像转语言方法,其特征在于:包括:/n(1)将图像数据集中的图像随机纳入训练集,将训练集中的图像数据进行预处理获得适应卷积网络尺寸的图像和包含所有词向量的集合,并将预处理后的图像进行卷积得到图像输出向量;/n(2)将所述图像输出向量与所述集合中的起始符合并作为融合门循环网络模型的输入,进入所述融合门循环网络模型后经过t
【技术特征摘要】
1.一种基于融合门循环网络模型的图像转语言方法,其特征在于:包括:
(1)将图像数据集中的图像随机纳入训练集,将训练集中的图像数据进行预处理获得适应卷积网络尺寸的图像和包含所有词向量的集合,并将预处理后的图像进行卷积得到图像输出向量;
(2)将所述图像输出向量与所述集合中的起始符合并作为融合门循环网络模型的输入,进入所述融合门循环网络模型后经过t0时间步产生第一隐藏层输出;将所述第一隐藏层输出与所述集合中的第一个词向量合并作为t1时间步的输入,进入所述融合门循环网络模型经过t1时间步获得第二隐藏层输出,如此循环迭代直至所述集合中所有词向量全部参与循环迭代过程,融合门循环网络模型训练完成;
(3)将待处理图像输入到训练完成的融合门循环网络模型中生成语言信息。
2.根据权利要求1所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(1)中图像数据集为MSCOCO2014数据集或者MSCOCO2017数据集。
3.根据权利要求1或2所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(1)中将训练集中的图像数据进行预处理,包括:
(1-1)将每一张图像处理成224×224大小,并将每张图像中的每一个自然语言语句与该图像成对保存,一个图像-自然语言语句作为一个图像理解数据;
(1-2)获取所有图像理解数据中具有最长序列的自然语言语句的长度,然后采用填充符将剩下的自然语言语句的序列填充至该长度,并且重新保存填充完毕的图像理解数据;
(1-3)统计所有自然语言语句中出现5次以上的单词,依次去重、排序后统计单词总个数k,给予每个单词唯一的序号,将所有自然语言语句转变为序号序列,并用维度大小为k×1的列向量d表示所有单词,列向量中对应单词序号的位置置为1,其余置为0,将该列向量送入维度大小为k×512词嵌入矩阵Wd中转换成维度大小为512的向量,一个这样的向量称为词向量x,x=dTWd;该词向量x作为循环神经网络的输入。
4.根据权利要求1所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述步骤(2)中融合门循环网络模型包括:输入门、融合门和输出门;所述输入门作为所述融合门循环网络模型的输入通道;所述融合门用于合并后向量的循环迭代并产生隐藏状态;所述输出门包括中间输出门和最终输出门,所述中间输出门用于控制每次迭代产生的隐藏状态是否应用本时间步记忆细胞信息,所述最终输出门用于输出每次迭代产生的隐藏状态相匹配的词向量,该词向量组成图像转化后的语言。
5.根据权利要求4所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述融合门中设有监听门,所述监听门用于监测循环迭代过程中图像输出向量的使用比例。
6.根据权利要求5所述的一种基于融合门循环网络模型的图像转语言方法,其特征在于:所述循环迭代过程具体包括:
(2-1)生成每一次迭代各个时间步的隐藏状态ht:...
【专利技术属性】
技术研发人员:周自维,王朝阳,徐亮,
申请(专利权)人:辽宁科技大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。