一种基于序列生成模型的快速图像摘要生成方法技术

技术编号:24888907 阅读:30 留言:0更新日期:2020-07-14 18:16
本发明专利技术涉及一种基于序列生成模型的快速图像摘要生成方法,包括以下步骤:S1:构造包括排序矩阵R与分类器C的循环神经网络;S2:将图片输入循环神经网络,解码得到第一个词;S3:循环神经网络对上文进行编码得到上文环境编码h;S4:排序矩阵R与分类器C利用上文环境编码h,对词典按类别进行筛选,得到最佳候选类别;S5:序列生成模型通过计算,从属于最佳候选类别的词中选取下一个词并输出;S6:重复执行步骤S3‑步骤S5,直至完成所有词的输出,生成与图片对应的完整的图像摘要,与现有技术相比,本发明专利技术具有加速解码过程且保证文本准确性等优点。

【技术实现步骤摘要】
一种基于序列生成模型的快速图像摘要生成方法
本专利技术涉及图像摘要生成领域,尤其是涉及一种基于序列生成模型的快速图像摘要生成方法。
技术介绍
随着数码相机、手机摄像头、谷歌眼镜等智能设备的不断发展,图像数据开始呈现指数式爆炸增长。用户通常需要输入图片来查找与之相关的信息。然而,由于图片数据量大、内容复杂,因此使用图片查找对应信息时需要对大量的数据进行检索,面临着数据量大以及存储计算复杂度高的技术难题。通过文字摘要信息来表达图片信息可以提升检索速度,但是由于视觉信息和文字信息是人类对自然界的两种截然不同的认知,因此通过文字准确、快速并清晰的描述相关图片并不容易,现有技术通常利用序列生成模型解码,从而将视觉信息转化为相关的文字信息。现在主流的序列生成模型大都是基于循环神经网络实现的,例如ImageCaption模型中的解码器就是一个序列生成模型,如图1所示,是一种简单的ImageCaption模型。其主流解码步骤如下:1、将长短期记忆网络lstm输出的上文环境编码h经过线性变换,转换成为N维向量,得到隐藏层输出logits,其变换的公式为:logits=W*h+B其中,W是形状为[D,N]的矩阵,D为上文环境编码h的维度大小,N为词典的大小,B为N维向量。2、将隐藏层输出logits转换成为N维的概率分布,其转换公式为:prob=softmax(logits)其中,prob表示词典中的每一个词被取为下一个词的概率大小,softmax()为归一化指数函数。r>3、根据概率分布按照设定的策略选取下一个单词,例如采用贪心策略选取概率prob最大的单词,该策略的表达式为:wid=argmax(p)其中,wid表示选取的下个词。但是该方法有一个很大的缺陷,其第一步的时间复杂度Ω为:Ω=D*N。根据经验,要想让序列生成模型的效果更好需要让词典尽可能大,而且要让长短期记忆网络lstm的输出,即上文环境编码h的维度尽可能多。如果上文环境编码h的维度D=1000,词典大小N=100万。那么做一次解码操作就需要做10亿次乘法,采用最简单的贪心策略要解码出有L=10个单词长度的文本序列,就需要做100亿次乘法操作。当换成当前主流的集束算法,取集束宽度beam_width=10时,根据计算式:D*N*L*beam_width^2=1万亿,计算机需要做1万亿次乘法操作,如此大的计算量使得普通的CPU与GPU均无法在有限的时间内完成。当面对100万词的大词典时,传统的解码算法已经失效,但现实世界的词汇量远不止100万。因此需要一种能够加速解码过程的图像摘要生成方法。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种加速解码过程且保证文本准确性的基于序列生成模型的快速图像摘要生成方法。本专利技术的目的可以通过以下技术方案来实现:一种基于序列生成模型的快速图像摘要生成方法,包括以下步骤:S1:构造包括排序矩阵R与分类器C的循环神经网络;S2:将图片输入循环神经网络,解码得到第一个词;S3:循环神经网络对上文进行编码得到上文环境编码h;S4:排序矩阵R与分类器C利用上文环境编码h,对词典按类别进行筛选,得到最佳候选类别;S5:序列生成模型通过计算,从属于最佳候选类别的词中选取下一个词并输出;S6:重复执行步骤S3-步骤S5,完成所有词的输出,生成与图片对应的完整的图像摘要。所述的步骤S1具体包括:S11:构造基于循环神经网络的序列生成模型;S12:构造M*N大小的分数矩阵S,其中,M为分类类别数,N为词典大小,所述的分数矩阵S中的元素S[m,n]为第n个单词属于第m个类别的分类得分;S13:利用神经网络模型构造包括M个类别的分类器C;S14:固定循环神经网络的参数,训练分类器C与分数矩阵S;S15:利用训练完成的分数矩阵S,得到M*K大小的排序矩阵R,其中,K为预设的每个类别中包含词语的个数,所述的排序矩阵R中的元素R[m,k]为属于第m个类别且根据分类得分排第k位的词语。所述的步骤S14中,训练分类器C与分数矩阵S的目标函数J的表达式为:J(θ)=Σ(score*prob真)其中,score为下一个真实词在各个类别上的得分,prob真为下一个真实词在各个类别上的概率,θ为分类器C与分数矩阵S的参数,J表示下一个真实词的期望分数之和。所述的步骤S14中,训练分类器C与分数矩阵S的约束条件具体包括:分数矩阵S中每一个类别下的分类分数总和为0;分数矩阵S中所有元素的取值区间为[-1,1]。所述的上文环境编码h为长短期记忆网络lstm的输出,所述的上文环境编码h经过线性变换,得到隐藏层输出logits。所述的分类器C为基于概率模型的分类器,用于利用上文环境编码h,计算得到下一个词属于各类别的概率。所述的步骤S4具体包括:S41:分类器C根据上文环境编码h计算下一个词属于各类别的类别概率Pc;S42:选取类别概率Pc最大的类别,作为最佳候选类别;S43:在排序矩阵R中查询,获取最佳候选类别中包含的所有词语。所述的步骤S5具体包括:S51:计算最佳候选类别中所有词语的隐藏层输出logits,得到每个词的条件概率分布Pw;S52:根据条件概率分布计算全局概率P,并选择使用贪心策略或者集束策略解码得到下一个单词,并输出该单词;所述的全局概率P的计算公式为:P=Pc*Pw。所述的分数矩阵S中,每个类别下的分类分数总和为0,每个词在一个类别上的分数取值范围为[-1,1]。与现有技术相比,本专利技术具有以下优点:1)加速解码过程:利用排序矩阵S(ClusterRank)与分类器C(ClusterClassify),先确定下一个词最有可能属于的类别,缩小范围后再进行解码,极大加速了序列生成模型的解码,解码的时间复杂度与词典大小无关,与排序矩阵R(ClusterRank)中每个类别中词语个数K的取值正相关,可适应各种大小的词典;2)保证图像摘要准确性:本专利技术根据上文环境编码h对词典中的词语进行分类,并且同时对分数矩阵S和分类器C进行训练,使得最终得到的排序矩阵中,具有相同上文环境的词基本上被聚为了一个类别,且大部分类别具有实际的意义,保证图像摘要生成的准确性;3)便于调节控制:可通过排序矩阵R中每个类别中词语个数K,来控制解码算法在解码速度与效果上的达到平衡;4)实现简单:无需改变原有模型的结构,只需要在原有序列生成模型上添加一个分类器与一个参数矩阵就可实现。附图说明图1为ImageCaption模型解码过程的示意图;图2为本专利技术方法的流程示意图;图3为实施例中构造的序列生成模型解码过程的示意图;图4为分类器C分类过程示意图;图5实施例中生成的排序矩阵本文档来自技高网...

【技术保护点】
1.一种基于序列生成模型的快速图像摘要生成方法,其特征在于,包括以下步骤:/nS1:构造包括排序矩阵R与分类器C的循环神经网络;/nS2:将图片输入循环神经网络,解码得到第一个词;/nS3:循环神经网络对上文进行编码得到上文环境编码h;/nS4:排序矩阵R与分类器C利用上文环境编码h,对词典按类别进行筛选,得到最佳候选类别;/nS5:序列生成模型通过计算,从属于最佳候选类别的词中选取下一个词并输出;/nS6:重复执行步骤S3-步骤S5,直至完成所有词的输出,生成与图片对应的完整的图像摘要。/n

【技术特征摘要】
1.一种基于序列生成模型的快速图像摘要生成方法,其特征在于,包括以下步骤:
S1:构造包括排序矩阵R与分类器C的循环神经网络;
S2:将图片输入循环神经网络,解码得到第一个词;
S3:循环神经网络对上文进行编码得到上文环境编码h;
S4:排序矩阵R与分类器C利用上文环境编码h,对词典按类别进行筛选,得到最佳候选类别;
S5:序列生成模型通过计算,从属于最佳候选类别的词中选取下一个词并输出;
S6:重复执行步骤S3-步骤S5,直至完成所有词的输出,生成与图片对应的完整的图像摘要。


2.根据权利要求1所述的一种基于序列生成模型的快速图像摘要生成方法,其特征在于,所述的步骤S1具体包括:
S11:构造基于循环神经网络的序列生成模型;
S12:构造M*N大小的分数矩阵S,其中,M为分类类别数,N为词典大小,所述的分数矩阵S中的元素S[m,n]为第n个单词属于第m个类别的分类得分;
S13:利用神经网络模型构造包括M个类别的分类器C;
S14:固定循环神经网络的参数,训练分类器C与分数矩阵S;
S15:利用训练完成的分数矩阵S,得到M*K大小的排序矩阵R,其中,K为预设的每个类别中包含词语的个数,所述的排序矩阵R中的元素R[m,k]为属于第m个类别且根据分类得分排第k位的词语。


3.根据权利要求2所述的一种基于序列生成模型的快速图像摘要生成方法,其特征在于,所述的步骤S14中,训练分类器C与分数矩阵S的目标函数J的表达式为:
J(θ)=Σ(score*prob真)
其中,score为下一个真实词在各个类别上的得分,prob真为下一个真实词在各个类别上的概率,θ为分类器C与分数矩阵S的参数,J表示下一个真实词的期望分数之和。


4.根...

【专利技术属性】
技术研发人员:马祥祥
申请(专利权)人:上海爱数信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1