基于LSTM和YOLOX的图像标题生成方法技术

技术编号:33444649 阅读:11 留言:0更新日期:2022-05-19 00:30
本发明专利技术涉及深度学习技术领域,尤其涉及一种基于LSTM和YOLOX的图像标题生成方法,采用YOLOX作为特征提取网络,通过YOLOX将预测分支解耦改善了收敛速度,提取后的特征向量会被传输给解码器长短期记忆网络,长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成标题,此外还引入了SE通道注意力机制,当解码器LSTM生成一个用于构成目标句子的词时,根据源句子动态地生成一个语境向量,然后网络会根据这个语境向量来预测词,有效地解决了现有的卷积神经网络图像标题生成方法因耗费计算资源过多导致的生成图像标题生成效率低的技术问题。题。题。

【技术实现步骤摘要】
基于LSTM和YOLOX的图像标题生成方法


[0001]本专利技术涉及深度学习
,尤其涉及一种基于LSTM和YOLOX的图像标题生成方法。

技术介绍

[0002]图像标题生成对机器学习算法来说是一个很大的挑战,标题生成所需要的模型不仅必须足够强大,以解决计算机视觉中确定图像中的对象的挑战,而且还必须能够用自然语言捕捉和表达它们之间的关系,这相当于模仿人类将大量显著的视觉信息压缩成描述性语言,这是很困难的。
[0003]为了生成图像标题,必须先进行图像特征的提取,传统的图像特征提取采用卷积神经网络,其中具有代表性的VGGNet使用小卷积核和更深的网络进行的正则化,其内部的三个全连接网络会使用更多的参数,导致更多的内存占用,并且增加更多的运算时间,这样的方法会耗费很多的计算资源,无法很好的兼顾图像标题生成的速度和效果,而且卷积神经网络虽然特别擅长处理视觉数据,但其全连接模式过于冗余和低效,且生物学基础支持不足,没有记忆功能,除此之外,其更擅长特征提取,不擅长特征理解。

技术实现思路

[0004]本专利技术的目的在于提供一种基于LSTM和YOLOX的图像标题生成方法,旨在解决现有的卷积神经网络图像标题生成方法因耗费计算资源过多导致的生成图像标题生成效率低的技术问题。
[0005]为实现上述目的,本专利技术提供了一种基于LSTM和YOLOX的图像标题生成方法,包括下列步骤:
[0006]选择图片输入YOLOX网络;
[0007]YOLOX网络生成图片的特征向量;
[0008]所述特征向量传输给长短期记忆网络;
[0009]所述长短期记忆网络生成图像标题。
[0010]其中,在YOLOX网络生成图片的特征向量的过程中,对于每一层FPN特征,先采用1
×
1conv层,将特征通道减少到256个,然后添加两个并行分支,每个分支具有2个3
×
3conv层,同时通过分类任务支线,最后生成W
×
H
×
C的特征图。
[0011]其中,在所述YOLOX网络中使用去耦的YOLO头替换耦合的YOLO头。
[0012]其中,所述长短期记忆网络包括输入门、输出门、遗忘门和一个记忆单元,所述记忆单元的维度与隐藏状态的维度相同,并设计用于记录额外的信息,所述输入门用于决定何时将数据读入记忆单元中,所述输出门用于读取记忆单元中的元素,所述遗忘门用于决定何时将数据读入记忆单元中。
[0013]其中,在所述长短期记忆网络生成图像标题的过程中,所述长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成
图片标题。
[0014]其中,所述基于LSTM和YOLOX的图像标题生成方法还引入了SE通道注意力机制,当所述长短期记忆网络生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的,此时应用SE通道注意力机制来根据源句子动态地生成一个语境向量,然后所述长短期记忆网络会根据语境向量来预测词。
[0015]其中,所述SE通道注意力机制的具体流程为输入H
×
W
×
C图像,通过池化连接拉伸成1
×1×
C图像,然后再与输入的原图像相乘,将每个通道赋予权重。
[0016]本专利技术的提供了一种基于LSTM和YOLOX的图像标题生成方法,采用YOLOX作为特征提取网络,通过YOLOX将预测分支解耦改善了收敛速度,提取后的特征向量会被传输给解码器长短期记忆网络,长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成标题,此外还引入了SE通道注意力机制,当解码器LSTM生成一个用于构成目标句子的词时,根据源句子动态地生成一个语境向量,然后网络会根据这个语境向量来预测词,有效地解决了现有的卷积神经网络图像标题生成方法因耗费计算资源过多导致的生成图像标题生成效率低的技术问题。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术的一种基于LSTM和YOLOX的图像标题生成方法的流程示意图。
[0019]图2是本专利技术的LSTM网络中记忆块的结构示意图。
[0020]图3是本专利技术YOLOX生成特征向量的具体流程示意图。
[0021]图4是本专利技术的SE通道注意力机制的具体流程示意图。
[0022]图5是本专利技术中包含2个隐含层的LSTM网络结构示意图。
[0023]图6是本专利技术中单个时间步骤上的LSTM网络示意图。
具体实施方式
[0024]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0025]本专利技术涉及的相关英文术语如下,后续配合使用英文进行描述:
[0026]长短期记忆网络(LSTM);
[0027]SE(Squeeze

and

Excitation:压缩和激励)通道注意力机制;
[0028]BP(Back Propagation)网络:一种按误差逆传播算法训练的多层前馈网络。
[0029]请参阅图1,本专利技术提出了一种基于LSTM和YOLOX的图像标题生成方法,包括下列步骤:
[0030]S1:选择图片输入YOLOX网络;
[0031]S2:YOLOX网络生成图片的特征向量;
[0032]S3:所述特征向量传输给长短期记忆网络;
[0033]S4:所述长短期记忆网络生成图像标题。
[0034]在YOLOX网络生成图片的特征向量的过程中,对于每一层FPN特征,先采用1
×
1conv层,将特征通道减少到256个,然后添加两个并行分支,每个分支具有2个3
×
3conv层,同时通过分类任务支线,最后生成W
×
H
×
C的特征图。
[0035]在所述YOLOX网络中使用去耦的YOLO头替换耦合的YOLO头。
[0036]所述长短期记忆网络包括输入门、输出门、遗忘门和一个记忆单元,所述记忆单元的维度与隐藏状态的维度相同,并设计用于记录额外的信息,所述输入门用于决定何时将数据读入记忆单元中,所述输出门用于读取记忆单元中的元素,所述遗忘门用于决定何时将数据读入记忆单元中。
[0037]在所述长短期记忆网络生成图像标题的过程中,所述长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词,在每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM和YOLOX的图像标题生成方法,其特征在于,包括下列步骤:选择图片输入YOLOX网络;YOLOX网络生成图片的特征向量;所述特征向量传输给长短期记忆网络;所述长短期记忆网络生成图像标题。2.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,在YOLOX网络生成图片的特征向量的过程中,对于每一层FPN特征,先采用1
×
1conv层,将特征通道减少到256个,然后添加两个并行分支,每个分支具有2个3
×
3conv层,同时通过分类任务支线,最后生成W
×
H
×
C的特征图。3.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,在所述YOLOX网络中使用去耦的YOLO头替换耦合的YOLO头。4.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法,其特征在于,所述长短期记忆网络包括输入门、输出门、遗忘门和一个记忆单元,所述记忆单元的维度与隐藏状态的维度相同,并设计用于记录额外的信息,所述输入门用于决定何...

【专利技术属性】
技术研发人员:夏海英张致鑫陆智韦彬吴波黄嘉琪梁钟黄芷锟
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1