【技术实现步骤摘要】
一种基于指针网络的图像描述优化方法
本专利技术涉及一种基于指针网络的图像描述优化方法。
技术介绍
ImageCaption图像描述,旨在利用机器对一张图片生成一段通顺、流畅且贴切的描述语句。该领域在近年来吸引了大量研究者,因其同时涉及计算机视觉和自然语言处理两大领域,故优化和改进的空间较大,各种做法也各具意义和代表性。其中基于注意力机制的改进对提升ImageCaption性能起到了重要作用,其出发点在于模仿人类对一张图片内容的观察理解过程。最初的Soft/HardAttention算法在每个时刻会计算对图片不同区域分配的注意力权重,实现了一种注意力动态转移的效果。此后又逐渐发展出了1)SpatialandChannelAttention,将注意力从空间维度拓展到卷积核Channel维度;2)AdaptiveAttention,模型不需要每个时刻都从图片内容中寻找依据,有些时刻可以根据语言习惯生成词语;3)Bottom-upTop-downAttention,用一个两层LSTM结构将attention的计算分层细化;此外还有各 ...
【技术保护点】
1.一种基于指针网络的图像描述优化方法,其特征在于,包括如下步骤:/n步骤1,提取输入图片的视觉特征:通过在ImageNet图像数据集上预先训练过的卷积神经网络CNN,提取得到输入图片的特征向量,并将特征向量输入到由两层长短时记忆网络LSTM组成的描述语句生成模型;/n步骤2,基于自适应注意力机制,在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重,并基于注意力权重,对图片特征向量进行加权,得到该时刻关注的图像特征;/n步骤3,描述语句生成模型基于当前的语句生成状况及关注到的图像特征,利用指针网络运算机制,从预先检测到的视觉属性词语中,挑选最合适的词语,作为该时刻 ...
【技术特征摘要】
1.一种基于指针网络的图像描述优化方法,其特征在于,包括如下步骤:
步骤1,提取输入图片的视觉特征:通过在ImageNet图像数据集上预先训练过的卷积神经网络CNN,提取得到输入图片的特征向量,并将特征向量输入到由两层长短时记忆网络LSTM组成的描述语句生成模型;
步骤2,基于自适应注意力机制,在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重,并基于注意力权重,对图片特征向量进行加权,得到该时刻关注的图像特征;
步骤3,描述语句生成模型基于当前的语句生成状况及关注到的图像特征,利用指针网络运算机制,从预先检测到的视觉属性词语中,挑选最合适的词语,作为该时刻的生成单词,如果没有找到合适的词语,则基于LSTM网络的隐含层状态参量生成单词;
步骤4,重复步骤1~步骤3,依次完成对句子中每一个单词的生成。
2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:
步骤1-1,对原始输入图片I进行预处理,得到图像特征图;
步骤1-2,将图像特征图展开成二维矩阵;
步骤1-3,将特征向量输入描述语句生成模型,得到输出结果。
3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:将原始输入图片I放缩到H×W的大小,输入到在ImageNet图片数据集上预先训练过的卷积神经网络中,并删去原始网络结构中最后的全连接层,保留最后一个卷积层的输出特征图featuremap,其尺寸大小h×w×dv,其中,H、W分别表示原始输入图片I的高和宽,h、w分别表示输出特征图featuremap的高和宽,dv表示特征向量的维度。
4.根据权利要求3所述的方法,其特征在于,步骤1-2包括:将图像特征图展开并整理成二维矩阵V的形式:
其中CNN(I)表示经过CNN网络提取得到的图片特征图,flatten操作将原本h×w×dv的三维张量特征图展开成k×dv的二维形式,并在转置后重新整理为dv×k的形式,k=h×w;表示了图片上k个不同区域中,第i个区域的图片特征向量,对上述k个图片特征向量求均值,记为其中R表示实数空间。
5.根据权利要求4所述的方法,其特征在于,步骤1-3包括:描述语句生成模型由两层LSTM网络构成,低层为LSTMTopDown,高层为LSTMlanguage,在第t个时刻,将不同区域图片特征向量的均值当前时刻对应单词的词嵌入向量Eyt,以及t-1时刻LSTMlanguage的状态参量进行拼接,并将拼接得到的结果输入到第一层LSTM网络,即LSTMTopDown中,得到LSTMTopDown运算后的状态参量具体流程如下式,所有参量的右下角标t代表当前时刻的取值:
其中表示LSTMlanguage前一时刻的隐含层状态参量,yt表示第t个时刻对应的正确单词的one-hot编码向量,将其与待学习的词嵌入矩阵E进行相乘运算得到词嵌入向量Eyt,三者拼接后得到待输入进LSTMTopDown的向量dh和dE分别是隐含层状态向量的维度及词嵌入向量的维度。
6.根据权利要求5所述的方法,其特征在于,步骤2包括以下步骤:
步骤2-1,基于步骤1-3得到的采用自适应注意力机制,计算出名为visualsentinel视觉哨兵变量的值用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息,还是直接基于LSTM网络的隐含层状况参量生成下一个单词,计算公式如下:
其中gatet是一个保存中间计算结果的变量,Wxg和Whg均为待学习参数,⊙代表按元素位置一一相乘,σ代表sigmoid函数;
步骤2-2,将步骤1-2所得的矩阵V嵌入到dh维度,使其与LSTM网络的状态参量维度一致,得到低维空间下的图像特征矩阵Vembed=WveV,其中Wve为待学习参量,再...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。