一种基于序列生成模型的快速图像摘要生成方法技术

技术编号:24888907 阅读:40 留言:0更新日期:2020-07-14 18:16
本发明专利技术涉及一种基于序列生成模型的快速图像摘要生成方法,包括以下步骤:S1:构造包括排序矩阵R与分类器C的循环神经网络;S2:将图片输入循环神经网络,解码得到第一个词;S3:循环神经网络对上文进行编码得到上文环境编码h;S4:排序矩阵R与分类器C利用上文环境编码h,对词典按类别进行筛选,得到最佳候选类别;S5:序列生成模型通过计算,从属于最佳候选类别的词中选取下一个词并输出;S6:重复执行步骤S3‑步骤S5,直至完成所有词的输出,生成与图片对应的完整的图像摘要,与现有技术相比,本发明专利技术具有加速解码过程且保证文本准确性等优点。

【技术实现步骤摘要】
一种基于序列生成模型的快速图像摘要生成方法
本专利技术涉及图像摘要生成领域,尤其是涉及一种基于序列生成模型的快速图像摘要生成方法。
技术介绍
随着数码相机、手机摄像头、谷歌眼镜等智能设备的不断发展,图像数据开始呈现指数式爆炸增长。用户通常需要输入图片来查找与之相关的信息。然而,由于图片数据量大、内容复杂,因此使用图片查找对应信息时需要对大量的数据进行检索,面临着数据量大以及存储计算复杂度高的技术难题。通过文字摘要信息来表达图片信息可以提升检索速度,但是由于视觉信息和文字信息是人类对自然界的两种截然不同的认知,因此通过文字准确、快速并清晰的描述相关图片并不容易,现有技术通常利用序列生成模型解码,从而将视觉信息转化为相关的文字信息。现在主流的序列生成模型大都是基于循环神经网络实现的,例如ImageCaption模型中的解码器就是一个序列生成模型,如图1所示,是一种简单的ImageCaption模型。其主流解码步骤如下:1、将长短期记忆网络lstm输出的上文环境编码h经过线性变换,转换成为N维向量,得到隐藏层输出logits,本文档来自技高网...

【技术保护点】
1.一种基于序列生成模型的快速图像摘要生成方法,其特征在于,包括以下步骤:/nS1:构造包括排序矩阵R与分类器C的循环神经网络;/nS2:将图片输入循环神经网络,解码得到第一个词;/nS3:循环神经网络对上文进行编码得到上文环境编码h;/nS4:排序矩阵R与分类器C利用上文环境编码h,对词典按类别进行筛选,得到最佳候选类别;/nS5:序列生成模型通过计算,从属于最佳候选类别的词中选取下一个词并输出;/nS6:重复执行步骤S3-步骤S5,直至完成所有词的输出,生成与图片对应的完整的图像摘要。/n

【技术特征摘要】
1.一种基于序列生成模型的快速图像摘要生成方法,其特征在于,包括以下步骤:
S1:构造包括排序矩阵R与分类器C的循环神经网络;
S2:将图片输入循环神经网络,解码得到第一个词;
S3:循环神经网络对上文进行编码得到上文环境编码h;
S4:排序矩阵R与分类器C利用上文环境编码h,对词典按类别进行筛选,得到最佳候选类别;
S5:序列生成模型通过计算,从属于最佳候选类别的词中选取下一个词并输出;
S6:重复执行步骤S3-步骤S5,直至完成所有词的输出,生成与图片对应的完整的图像摘要。


2.根据权利要求1所述的一种基于序列生成模型的快速图像摘要生成方法,其特征在于,所述的步骤S1具体包括:
S11:构造基于循环神经网络的序列生成模型;
S12:构造M*N大小的分数矩阵S,其中,M为分类类别数,N为词典大小,所述的分数矩阵S中的元素S[m,n]为第n个单词属于第m个类别的分类得分;
S13:利用神经网络模型构造包括M个类别的分类器C;
S14:固定循环神经网络的参数,训练分类器C与分数矩阵S;
S15:利用训练完成的分数矩阵S,得到M*K大小的排序矩阵R,其中,K为预设的每个类别中包含词语的个数,所述的排序矩阵R中的元素R[m,k]为属于第m个类别且根据分类得分排第k位的词语。


3.根据权利要求2所述的一种基于序列生成模型的快速图像摘要生成方法,其特征在于,所述的步骤S14中,训练分类器C与分数矩阵S的目标函数J的表达式为:
J(θ)=Σ(score*prob真)
其中,score为下一个真实词在各个类别上的得分,prob真为下一个真实词在各个类别上的概率,θ为分类器C与分数矩阵S的参数,J表示下一个真实词的期望分数之和。


4.根...

【专利技术属性】
技术研发人员:马祥祥
申请(专利权)人:上海爱数信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1