一种基于编-解码器结构的可控图像字幕生成优化方法技术

技术编号：30754960 阅读：25 留言：0更新日期：2021-11-10 12:08

本发明专利技术涉及一种基于编

全部详细技术资料下载

【技术实现步骤摘要】
一种基于编
‑
解码器结构的可控图像字幕生成优化方法

[0001]本专利技术涉及一种图像字幕生成方法，尤其是涉及一种基于编
‑
解码器结构的可控图像字幕生成优化方法。

技术介绍

[0002]随着信息技术与人类生产生活的交汇融合，互联网在人类日常生活中得到快速普及，越来越多的数据在互联网终端产生，全球数据呈现爆炸式增长。图像和文本作为数据重要的表达方式，图像生动形象，能够给人留下形象深刻的印象，而文本概括性高，能够以简练的形式描绘并传递信息，这两者也分别代表了深度学习的两大领域，计算机视觉和自然语言处理。而图像字幕生成很好地建立了计算机视觉领域和自然语言处理领域的桥梁，使用自然语言对图像进行描述，实现图像的语义理解。
[0003]近几年，随着机器翻译以及大数据的兴起，已经出现了图像字幕生成的热潮，它的主流方法是基于编码器
‑
解码器结构的深度学习，利用编码器提取图像特征，利用解码器来生成图像对应的描述文本。然而现有的绝大部分研究方法仍缺乏可控性和可解释性。在实际应用情景中，我们需要能够根据目标和上下文，用多种不同的方式来描述同一张图像。
[0004]因此，如何增加生成过程的可控性，根据需要生成相应的描述成为图像字幕的一个新的研究方向。而且该方向明显具有更大的应用潜力和实用价值。不仅可以实现更好的交互性、可解释性，同时也使得生成的描述更具有多样性，能够应用到复杂的场景中。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在...

【技术保护点】

【技术特征摘要】
1.一种基于编
‑
解码器结构的可控图像字幕生成优化方法，其特征在于，该方法包括：构建图像编码器，用于进行目标检测并提取各目标区域的图像特征，得到各目标区域的特征向量；采用排序网络对目标区域进行排序；构建图像解码器，将排序后的目标区域的特征向量输入至图像解码器，解码输出图像字幕。2.根据权利要求1所述的一种基于编
‑
解码器结构的可控图像字幕生成优化方法，其特征在于，所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器，所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。3.根据权利要求2所述的一种基于编
‑
解码器结构的可控图像字幕生成优化方法，其特征在于，所述的第一网络包括Faster R
‑
CNN网络。4.根据权利要求2所述的一种基于编
‑
解码器结构的可控图像字幕生成优化方法，其特征在于，所述的第二网络包括VC R
‑
CNN网络。5.根据权利要求1所述的一种基于编
‑
解码器结构的可控图像字幕生成优化方法，其特征在于，所述的图像解码器采用改进激活函数的LSTM神经网络，改进的激活函数为m
‑
Tanh激活函数，表示为：其中，x为输入，Hx()为输出，m为常数。6.根据权利要求5所述的一种基于编
‑
解码器结构的可控图像字幕生成优化方法，其特征在于，利用m
‑
Tanh激活函数更新LSTM神经网络细胞状态的具体方式为：激活函数更新LSTM神经网络细胞状态的具体方式为：其中，x
t
为t时刻输入的目标区域的特征向量，h
t
‑1为t
‑
1时刻隐藏层的状态，...

【专利技术属性】
技术研发人员：邵洁，杨润霞，马潇雨，罗岩，
申请(专利权)人：上海电力大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人