一种基于多尺度特征和长短记忆网络的动物图像描述方法技术

技术编号:37260664 阅读:28 留言:0更新日期:2023-04-20 23:35
本发明专利技术公开了一种基于多尺度特征和长短记忆网络的动物图像描述方法,包括如下步骤:通过含残差结构的Darknet网络对动物图像信息进行提取,得到具有层级结构的多尺度图像特征;使用带注意力区域的长短期记忆网络(LSTM)对提取到的图像特征进行循环预测,获取当前词组和下一时刻对应的注意力区域,经由长短期记忆网络循环预测,得到连续的词组并组成完整句子;网络预测出完整语句后得到语句中止符,表示当前图片的预测完成,得到该图像的文字描述内容。实验证明该方法可以对包含有动物的图像进行文字描述,能够证明本方法的有效性。能够证明本方法的有效性。能够证明本方法的有效性。

【技术实现步骤摘要】
一种基于多尺度特征和长短记忆网络的动物图像描述方法


[0001]本专利技术涉及基于深度学习的图像描述领域,特别涉及基于长短记忆网络和注意力方法的动物图像描述方法和系统。

技术介绍

[0002]我国具有多种珍稀动物物种,物种保护和繁殖一直受到社会的广泛关注。近几年里,在全国各地建设动植物生态公园的意见也不断的提出,动物保护工作的意义也愈发重要,使用新的技术展开动物保护工作势在必行。图像描述技术是一种基于图片给出文字性描述的跨计算机视觉与自然语言处理两大领域的跨模态技术。目前的图像描述技术分为传统方法和基于神经网络学习的两大类。传统方法从图像中检测出相关的实体信息,然后将实体填充到手工设计的句子模板中,存在的问题是生成的文本往往欠缺流利性,在表达的多样性方面也不能满足实际需求。第二类的端到端的学习框架包括编码器和解码器两个基本部件,编码器将输入的信息转换成低维稠密的隐式向量,解码器将该隐式向量转换成目标输出。该学习范式最早应用在机器翻译的场景,在图像描述领域取得了显著的性能提升。
[0003]文献1(Vinyals O,Toshev A,B本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征和长短记忆网络的动物图像描述方法,其特征在于,包括以下步骤:Sl、使用基于Tkinter的数据集标注软件对获取的动物图像数据集进行语句标注,最终形成一对一的“数据

标注”组合;S2、使用Darknet对步骤S1中的数据集进行特征提取,在特征提取网络前、中、后三阶段分别输出不同图像特征,得到具有多层级的特征块;在三部分特征都提取完成后,使用自适应池化法进行维度统一;S3、对S2中得到的特征数据使用LSTM网络进行循环处理,生成当前时刻的预测词组和注意力区域,在下一时刻依据生成的注意力区域提取特征数据,结合LSTM网络中的记忆内容,预测出下一时刻的词组和注意力区域,直到预测出完整的描述语句时输出中止符号并停止预测。2.根据权利要求1所述的基于多尺度特征提取和带注意力的长短期记忆网络的动物图像描述方法,其特征在于,所述步骤S2包括如下步骤:S21、所使用的特征提取主干网络由卷积神经网络搭建构成,具体网络结构为:依次设置一个3*3的卷积模块、一个批归一化层和一个LeakyReLU激活函数层,与组合的残差层构成基础卷积模块,其过程表示为:x

=F
LR
(F
BN
(F
3*3
(x)))=F
DBL
(x)其中x为输入图像或图像特征,F
LR
为LeakyReLU激活函层,F
BN
为批归一化层,F
3*3
为卷积模块,组合表示为F
DBL
(x),x

为当前阶段输出。S22、在完成S31所述特征提取后,使用多个基础卷积模块进行组合,得到Darknet模块,表示为:x

=F
Padding
(F
DBL
(F
DBL
(F
DBL
(x))+x)*N)=F
RE...

【专利技术属性】
技术研发人员:王龙业谢安恒
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1