基于LSTM和YOLOX的图像标题生成方法技术

技术编号：33444649 阅读：11 留言：0更新日期：2022-05-19 00:30

本发明专利技术涉及深度学习技术领域，尤其涉及一种基于LSTM和YOLOX的图像标题生成方法，采用YOLOX作为特征提取网络，通过YOLOX将预测分支解耦改善了收敛速度，提取后的特征向量会被传输给解码器长短期记忆网络，长短期记忆网络根据上下文向量、之前的隐藏状态和之前生成的单词，在每个时间步骤生成一个单词，从而生成标题，此外还引入了SE通道注意力机制，当解码器LSTM生成一个用于构成目标句子的词时，根据源句子动态地生成一个语境向量，然后网络会根据这个语境向量来预测词，有效地解决了现有的卷积神经网络图像标题生成方法因耗费计算资源过多导致的生成图像标题生成效率低的技术问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
基于LSTM和YOLOX的图像标题生成方法

[0001]本专利技术涉及深度学习
，尤其涉及一种基于LSTM和YOLOX的图像标题生成方法。

技术介绍

[0002]图像标题生成对机器学习算法来说是一个很大的挑战，标题生成所需要的模型不仅必须足够强大，以解决计算机视觉中确定图像中的对象的挑战，而且还必须能够用自然语言捕捉和表达它们之间的关系，这相当于模仿人类将大量显著的视觉信息压缩成描述性语言，这是很困难的。
[0003]为了生成图像标题，必须先进行图像特征的提取，传统的图像特征提取采用卷积神经网络，其中具有代表性的VGGNet使用小卷积核和更深的网络进行的正则化，其内部的三个全连接网络会使用更多的参数，导致更多的内存占用，并且增加更多的运算时间，这样的方法会耗费很多的计算资源，无法很好的兼顾图像标题生成的速度和效果，而且卷积神经网络虽然特别擅长处理视觉数据，但其全连接模式过于冗余和低效，且生物学基础支持不足，没有记忆功能，除此之外，其更擅长特征提取，不擅长特征理解。

技术实现思路

[0004]本专利技术的目的在于提供一种基于LSTM和YOLOX的图像标题生成方法，旨在解决现有的卷积神经网络图像标题生成方法因耗费计算资源过多导致的生成图像标题生成效率低的技术问题。
[0005]为实现上述目的，本专利技术提供了一种基于LSTM和YOLOX的图像标题生成方法，包括下列步骤：
[0006]选择图片输入YOLOX网络；
[0007]YOLOX网络生成图片的特征向量；
...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM和YOLOX的图像标题生成方法，其特征在于，包括下列步骤：选择图片输入YOLOX网络；YOLOX网络生成图片的特征向量；所述特征向量传输给长短期记忆网络；所述长短期记忆网络生成图像标题。2.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法，其特征在于，在YOLOX网络生成图片的特征向量的过程中，对于每一层FPN特征，先采用1
×
1conv层，将特征通道减少到256个，然后添加两个并行分支，每个分支具有2个3
×
3conv层，同时通过分类任务支线，最后生成W
×
H
×
C的特征图。3.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法，其特征在于，在所述YOLOX网络中使用去耦的YOLO头替换耦合的YOLO头。4.如权利要求1所述的基于LSTM和YOLOX的图像标题生成方法，其特征在于，所述长短期记忆网络包括输入门、输出门、遗忘门和一个记忆单元，所述记忆单元的维度与隐藏状态的维度相同，并设计用于记录额外的信息，所述输入门用于决定何...

【专利技术属性】
技术研发人员：夏海英，张致鑫，陆智韦彬，吴波，黄嘉琪，梁钟，黄芷锟，
申请(专利权)人：广西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人