一种基于实例分割的图像语义描述改进方法技术

技术编号：32784993 阅读：19 留言：0更新日期：2022-03-23 19:44

本发明专利技术属于图像描述领域，具体涉及一种基于实例分割的图像语义描述的改进方法。随着图像语义理解技术的发展，如何能有效的提取图像中蕴藏的高层语义信息成为科研工作者中热门研究的课题，但目前为止图像描述任务依然没有达到令人满意的效果。图像描述试图通过一句话描述图像的全部内容，但是实现图像描述的经典的编解码框架在编码端往往尝试使用基于网格划分和目标检测的卷积神经网络来提取图像特征，使得提取图像特征中容易丢失背景信息，或者不同区域的特征存在信息重合的问题，从而导致生成描述的语句出现丢失重点信息或者信息冗余的问题。因此本发明专利技术对基于编解码框架的的图像语义描述算法进行了相应改进，提高编码器提取图像特征的能力，从而使得生成的描述语句更加准确。更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于实例分割的图像语义描述改进方法

[0001]本专利技术属于图像描述领域，具体涉及一种基于实例分割的图像语义描述改进方法。

技术介绍

[0002]实例分割不仅可以提取出图像中的目标，同时还能给出基于像素级别的分类，相当于同时解决了图像目标检测和图像语义分割的任务，但是图像的内容丰富多彩，即使是不同的目标之间，他们也存在诸多的联系，通过为图像生成语句描述，可以提取出图片中丰富的语义信息，不仅可以获取图片中的目标，还能得到目标的属性，同时还可以获取目标之间的相互关系，借助于机器翻译领域经典的编解码框架，将图像视作一种语言，而描述语句视为另外一种语言的编解码框架成为图像语义描述的经典框架模型。

技术实现思路

[0003]本专利技术要解决的技术问题是：对经典的基于编解码框架的图像语义描述框架进行改进，改进后算法的精度比原算法更高。
[0004]本专利技术基于Bottom
‑
Up and Top
‑
Down的编解码框架进行改进，包括以下步骤：
[0005]步骤1：输入一张图像，对图像进行实例分割提取实例区域；
[0006]其中步骤1的具体步骤为：
[0007]步骤101：实例分割采用Mask RCNN网络，提取图片得到k个实例区域；
[0008]步骤2：对提取到的实例区域通过CNN提取特征；
[0009]步骤3：将提取到的特征输入到注意力模块；
[0010]步骤4：通过注意力机制给提取到的特征分配权重，并且融合特征...

【技术保护点】

【技术特征摘要】
1.一种基于实例分割的图像语义描述改进方法，其特征在于，包括下列步骤：步骤1：输入一张图像，对图像进行实例分割提取实例区域；步骤2：对提取到的实例区域通过CNN提取特征；步骤3：将提取到的特征输入到注意力模块；步骤4：通过注意力机制给提取到的特征分配权重，并且融合特征；步骤5：将融合特征和上一时刻生成的单词的词向量输入当前时刻的LSTM隐藏层；步骤6：LSTM隐藏层计算得到当前时刻的输出单词的概率分布；步骤7：通过概率分布，输出最大概率索引对应的单词；步骤8：输出结束标志符或者输出达到最大长度时，所有输出的单词按序组成的句子为输入图像的描述语句。2.根据权利要求1所述的基于实例分割的图像语义描述改进方法，其特征在于，所述步骤1中通过实例分割的方法具体为：步骤101：实例分割采用MaskRCNN网络，提取图片得到k个实例区域。3.根据权利要求1所述的基于实例分割的图像语义描述改进方法，其特征在于，所述步骤4中注意力机制的处理方法具体为：步骤401：将步骤2提取的特征向量和上一时刻输出的单词对应的词向量以及Top
‑
DownLSTM中的语句LS...

【专利技术属性】
技术研发人员：胡皓晖，王云，周焕来，李玉琳，余梦鹏，张诗涵，陈昊男，贾海涛，
申请(专利权)人：一拓通信集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人