基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法技术

技术编号:19481135 阅读:34 留言:0更新日期:2018-11-17 10:39
本发明专利技术一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法属于计算机视觉与自然语言处理领域;包括利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;建立单隐层神经网络模型将图像特征描述子映射到词嵌入空间;将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入;将原始图片输入到图说模型生成中文描述语句;使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估;本发明专利技术实现了用中文描述图像的技术问题,加强了语句的连贯性与可读性。

【技术实现步骤摘要】
基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
本专利技术属于计算机视觉与自然语言处理领域,具体涉及一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法。
技术介绍
对图像进行中文文本描述是一项结合计算机视觉与中文自然语言处理(NLP)的技术,随着日常生活中电子设备升级换代,人们产出图像数量的速度呈现指数型增长,对于日常生活而言,如何更高效的在海量的图像中搜索到用户所需求的图像信息,仅仅依靠传统的关键字检索方法不仅存在搜索速度过慢的问题而且也存在图像定位不准确问题,对于科研而言,在大数据时代,如果依靠人力对海量的图片进行标注,生成标签尤为显得不贴近实际。对图像进行准确的标注,这样不仅可以大大提高人们的图像检索效率,还可以为科研提供精准的数据用于分析,但是人工标注如此多的图像又不现实,因此自动为图像生成语言描述的技术应运而生,它要求机器不仅仅只是生成一个对于图像类别进行描述的标签词语,而是要在“理解图像”的内容之后,可以生成一个对图像的内容进行准确描述的包含上下文联系并且符合人类阅读习惯的句子。该技术的发展也将有助于图像标注,图像索引,智能图像识别以及聊天机器人等领域的发展。随着图像描述中文数据集的公开,使得设计出符合中国人阅读习惯的的图像语义化理解系统成为可能。依靠传统手工特征结合的机器学习分类算法也可以实现对图像进行语义描述,但生成的中文语句无论从客观角度还是主观角度,语句的连贯性与可读性都不强。深度学习网络的应用使得这一问题有所改善但仍存在识别率低等缺点。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法;采用深度卷积神经网络模型利用其特征自学习能力对图像进行特征提取,提取到的图像特征具有一定的表述能力,语言模型的构建采用循环神经网络来作为描述语句的生成器,在序列数据处理方面表现优异,用来对图片中的内容进行推测,数据集方面选取AIChallenger图像中文描述数据集以及ImageNet图像数据集作为网络模型的训练数据。本专利技术的目的是这样实现的:一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,包括以下步骤:步骤a、准备ImageNet图像数据集、AIChallenger图像描述训练集以及AIChallenger图像描述评估集,利用开源框架tensorflow对AIChallenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AIChallenger图像集进行图像特征描述子的抽取;步骤d、对图像标注集采用中文分词组件jieba进行分词处理,依据分词后每个词语出现的频率由高到低建立词频词典,并给予每个词语唯一的数字编号建立索引;步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间;步骤f、将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入,通过训练网络得到最终图说模型;步骤g、将原始图片输入到训练好的图说模型生成中文描述语句;步骤h、使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估。进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤a中所述利用开源框架tensorflow对AIChallenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件,实验环境为Ubuntu16.04+Anaconda3+Tensorflow1.0.1,生成的tfrecord文件中包含有图像的编号,原始图像的二进制编码信息、图像存储路径、图像的名字以及分词后的中文描述语句列表,生成训练集tfrecord文件个数280个,评估集文件个数64个。进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤c所述图像特征描述子的抽取,选取Inception_ResNet_v2网络对图像进行特征抽取,网络在传统VGG网络模型的基础上引入InceptionArchitecture模块,InceptionArchitecture模块包含有1*1,3*3,5*5或者将5*5卷积核进行核分解成为2个3*3卷积核,三种不同卷积核来获取图像不同的局部感受野,提取到多尺度特征,将提取到的多尺度特征进行特征合并,得到最终卷积特征,在Inception网络中引入“跳远连接”的残差思想,将原始图像尺寸归一化为229*229*3作为Inception_ResNet_v2网络的输入,并载入步骤b得到的预训练参数,得到Inception_ResNet_v2网络最后全局平均池化层的特征向量,其特征维数为1792维。进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤e所述提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间的方法,包括以下步骤:步骤e1、将步骤d中词频词典中每个词按照词频词典规模进行one-hot编码;步骤e2、随机初始化一个词嵌入矩阵W8560*512,矩阵的行数代表词典中的词语总数,矩阵的列数代表,词嵌入特征向量维数;步骤e3、建立单隐层神经网络模型,隐层神经元个数设定为200个,激活函数使用sigmoid函数,神经网络的一次输入3个词语,即3个one-hot向量,输入的one-hot向量与词嵌入矩阵做乘积运算,得到每个词语的词嵌入特征向量,维数为512维;步骤e4、将3个词语的词嵌入矩阵进行拼接,得到一个1536维向量作为神经网络的隐层输入,网络的隐层输出为8560个神经元,并接入一个softmax层做概率化,之后以标签词的one-hot向量与softmax层的最终输出联合构建交叉熵损失函数,并采用反向传播算法进行优化,得到最终的词嵌入矩阵W8560*512,具体的公式如下:z(2)=W1T·a(1)+b1(1)y=a(3)=softmax(z(3))(4)其中式(2)是神经网络的隐层输出,式(4)是神经网络的最终输出;式(5)是softmax函数的表达式,式(6)是神经网络的损失函数;步骤e5、采用全连接的方法将步骤c中提取到的图像特征描述子采用全连接的方式映射的词嵌入特征空间,得到最终的图像特征向量P。进一步地,所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,步骤f所述图说模型生成的方法,包括以下步骤:步骤f1、引入门限机制对信息进行过滤筛选与保留,具体公式如式(7)到式(12)所式:zt=σ(WZ·[ht-1,xt])(7)γt=σ(Wγ·[ht-1,xt])(9)式(7)为更新门计算公式,式(9)为重置门计算公式,两个门通过sigmoid函数来设定一个0-1之间阈值,阈值越大,更新门保留前一时刻的状态信息越多,重置门忽略前一时刻状态信息越少;W是权重矩阵;tanh是双本文档来自技高网...

【技术保护点】
1.一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,包括以下步骤:步骤a、准备ImageNet图像数据集、AI Challenger图像描述训练集以及AI Challenger图像描述评估集,利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;步骤d、对图像标注集采用中文分词组件jieba进行分词处理,依据分词后每个词语出现的频率由高到低建立词频词典,并给予每个词语唯一的数字编号建立索引;步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间;步骤f、将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入,通过训练网络得到最终图说模型;步骤g、将原始图片输入到训练好的图说模型生成中文描述语句;步骤h、使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估。...

【技术特征摘要】
1.一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,包括以下步骤:步骤a、准备ImageNet图像数据集、AIChallenger图像描述训练集以及AIChallenger图像描述评估集,利用开源框架tensorflow对AIChallenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AIChallenger图像集进行图像特征描述子的抽取;步骤d、对图像标注集采用中文分词组件jieba进行分词处理,依据分词后每个词语出现的频率由高到低建立词频词典,并给予每个词语唯一的数字编号建立索引;步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间;步骤f、将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入,通过训练网络得到最终图说模型;步骤g、将原始图片输入到训练好的图说模型生成中文描述语句;步骤h、使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估。2.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤a中所述利用开源框架tensorflow对AIChallenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件,实验环境为Ubuntu16.04+Anaconda3+Tensorflow1.0.1,生成的tfrecord文件中包含有图像的编号,原始图像的二进制编码信息、图像存储路径、图像的名字以及分词后的中文描述语句列表,生成训练集tfrecord文件个数280个,评估集文件个数64个。3.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤c所述图像特征描述子的抽取,选取Inception_ResNet_v2网络对图像进行特征抽取,网络在传统VGG网络模型的基础上引入InceptionArchitecture模块,InceptionArchitecture模块包含有1*1,3*3,5*5或者将5*5卷积核进行核分解成为2个3*3卷积核,三种不同卷积核来获取图像不同的局部感受野,提取到多尺度特征,将提取到的多尺度特征进行特征合并,得到最终卷积特征,在Inception网络中引入“跳远连接”的残差思想,将原始图像尺寸归一化为229*229*3作为Inception_ResNet_v2网络的输入,并载入步骤b得到的预训练参数,得到Inception_ResNet_v2网络最后全局平均池化层的特征向量,其特征维数为1792维。4.根据权利要求1所述基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,步骤e所述提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间的方法,包括以下步骤:步骤e1、将步骤d中词频词典中每个词按照词频词典规模进行one-hot编码;步骤e2、随机初始化一个词嵌入矩阵W8560*512,矩阵的行数代表词典中的词语总数,矩阵的列数代表,词嵌入特征向量维数;步骤e3、建立单隐层神经网络模型,隐层神经元个数设定为200个,激活函数使用sigmoid函数,神经网络的一次输入3个词语,即3个one-hot向量,输入的one-hot向量与词嵌入矩阵做乘积运算,得到每个词语的词嵌入特征向量,维数为512维;步骤e4、将3个词语的词嵌入矩阵进行拼接,得到一个1536维向量作为神经网络的隐层输入,网络的隐层输出为8560个神经元,并接入一个softmax层做概率化,之后以标签词的one-hot向量与softmax层的最终输出联合构建交叉熵损失函数,并采用反向传播算法进行优化,得到最终的词嵌入矩阵W8560*512,具体的公式如下:z(2)=W1T·a(1)+b1(1...

【专利技术属性】
技术研发人员:谢金宝吕世伟刘秋阳李佰蔚梁新涛王玉静
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1