一种基于编-解码器结构的可控图像字幕生成优化方法技术

技术编号:30754960 阅读:25 留言:0更新日期:2021-11-10 12:08
本发明专利技术涉及一种基于编

【技术实现步骤摘要】
一种基于编

解码器结构的可控图像字幕生成优化方法


[0001]本专利技术涉及一种图像字幕生成方法,尤其是涉及一种基于编

解码器结构的可控图像字幕生成优化方法。

技术介绍

[0002]随着信息技术与人类生产生活的交汇融合,互联网在人类日常生活中得到快速普及,越来越多的数据在互联网终端产生,全球数据呈现爆炸式增长。图像和文本作为数据重要的表达方式,图像生动形象,能够给人留下形象深刻的印象,而文本概括性高,能够以简练的形式描绘并传递信息,这两者也分别代表了深度学习的两大领域,计算机视觉和自然语言处理。而图像字幕生成很好地建立了计算机视觉领域和自然语言处理领域的桥梁,使用自然语言对图像进行描述,实现图像的语义理解。
[0003]近几年,随着机器翻译以及大数据的兴起,已经出现了图像字幕生成的热潮,它的主流方法是基于编码器

解码器结构的深度学习,利用编码器提取图像特征,利用解码器来生成图像对应的描述文本。然而现有的绝大部分研究方法仍缺乏可控性和可解释性。在实际应用情景中,我们需要能够根据目标和上下文,用多种不同的方式来描述同一张图像。
[0004]因此,如何增加生成过程的可控性,根据需要生成相应的描述成为图像字幕的一个新的研究方向。而且该方向明显具有更大的应用潜力和实用价值。不仅可以实现更好的交互性、可解释性,同时也使得生成的描述更具有多样性,能够应用到复杂的场景中。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于编

解码器结构的可控图像字幕生成优化方法。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]一种基于编

解码器结构的可控图像字幕生成优化方法,该方法包括:
[0008]构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
[0009]采用排序网络对目标区域进行排序;
[0010]构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。
[0011]优选地,所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。
[0012]优选地,所述的第一网络包括Faster R

CNN网络。
[0013]优选地,所述的第二网络包括VC R

CNN网络。
[0014]优选地,所述的图像解码器采用改进激活函数的LSTM神经网络,改进的激活函数为m

Tanh激活函数,表示为:
[0015][0016]其中,x为输入,H(x)为输出,m为常数
[0017]优选地,利用m

Tanh激活函数更新LSTM神经网络细胞状态的具体方式为:
[0018][0019][0020]其中,x
t
为t时刻输入的目标区域的特征向量,h
t
‑1为t

1时刻隐藏层的状态,W
c
、分别表示网络的权重和偏差参数,f
t
、i
t
分别表示t时刻的遗忘门向量和输入门向量,C
t
‑1、C
t
分别表示t

1时刻、t时刻的细胞状态更新向量,分别表示t

1时刻、t时刻的细胞状态初始向量。
[0021]优选地,利用m

Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为:
[0022][0023]其中,h
t
为t时刻隐藏层的状态,o
t
为t时刻输出门向量。
[0024]优选地,当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后,多分枝决策输出算法来选出最优的图像字幕。
[0025]优选地,多分枝决策输出算法具体为:
[0026]对各情况下输出的图像字幕进行评价获取评价指标向量;
[0027]基于评价指标向量对图像字幕两两进行比对,选出最优的图像字幕。
[0028]优选地,对图像字幕两两比对的具体方式为:
[0029]对评价指标向量中的每个指标进行对比,若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标,则优选第一图像字幕,若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标,则优选第二图像字幕,否则,根据各个评价指标的重要程度为各个评价指标设置权重,对评价指标向量中的评价指标进行加权求和,优选加权求和结果较大的图像字幕。
[0030]与现有技术相比,本专利技术具有如下优点:
[0031](1)本专利技术对图像编码器进行改进,将两种网络进行融合,分别提取图像一般性特征和图像视觉常识性特征,这两种特征具有互补的作用,可以很好地实现对图像信息的提取,由于图像字幕的生成主要依赖于提取的图像特征,因此采用改进后的图像编码器可以得到描述更为准确的图像字幕;
[0032](2)本专利技术采用排序网络对目标区域进行排序,从而可以实现对图像区域描述顺序的控制,提高图像字幕的准确性;
[0033](3)本专利技术对图像解码器进行改进,采用m

Tanh激活函数更新LSTM神经网络细胞状态以及隐藏层状态,此种方式使得图像解码器相比传统的采用LSTM神经网络的解码器,在训练时具有更快的收敛速度,且可以有效地缓解梯度消失问题,从而使得生成的图像字幕准确性更高且控制性能更好;
[0034](4)本专利技术设计多分枝决策输出算法优选图像字幕,从而能根据不同场景获取最
优的图像字幕,具有可控性。
附图说明
[0035]图1为本专利技术一种基于编

解码器结构的可控图像字幕生成优化方法的实施流程框图;
[0036]图2为本专利技术采用改进激活函数的LSTM神经网络的结构示意图;
[0037]图3为本专利技术多分枝决策输出算法的流程框图。
具体实施方式
[0038]下面结合附图和具体实施例对本专利技术进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本专利技术并不意在对其适用物或其用途进行限定,且本专利技术并不限定于以下的实施方式。
[0039]实施例
[0040]如图1所示,本实施例提供一种基于编

解码器结构的可控图像字幕生成优化方法,该方法包括:
[0041]构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
[0042]采用排序网络对目标区域进行排序;
[0043]构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。
[0044]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于编

解码器结构的可控图像字幕生成优化方法,其特征在于,该方法包括:构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;采用排序网络对目标区域进行排序;构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。2.根据权利要求1所述的一种基于编

解码器结构的可控图像字幕生成优化方法,其特征在于,所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。3.根据权利要求2所述的一种基于编

解码器结构的可控图像字幕生成优化方法,其特征在于,所述的第一网络包括Faster R

CNN网络。4.根据权利要求2所述的一种基于编

解码器结构的可控图像字幕生成优化方法,其特征在于,所述的第二网络包括VC R

CNN网络。5.根据权利要求1所述的一种基于编

解码器结构的可控图像字幕生成优化方法,其特征在于,所述的图像解码器采用改进激活函数的LSTM神经网络,改进的激活函数为m

Tanh激活函数,表示为:其中,x为输入,Hx()为输出,m为常数。6.根据权利要求5所述的一种基于编

解码器结构的可控图像字幕生成优化方法,其特征在于,利用m

Tanh激活函数更新LSTM神经网络细胞状态的具体方式为:激活函数更新LSTM神经网络细胞状态的具体方式为:其中,x
t
为t时刻输入的目标区域的特征向量,h
t
‑1为t

1时刻隐藏层的状态,...

【专利技术属性】
技术研发人员:邵洁杨润霞马潇雨罗岩
申请(专利权)人:上海电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1