基于参考前置描述的图像描述生成方法技术

技术编号:31977851 阅读:21 留言:0更新日期:2022-01-20 01:29
本发明专利技术公开了一种基于参考前置描述的图像描述生成方法,包括如下步骤:1)划分数据集,构建词表;2)获取图像区域特征;3)构建前置模型,获取前置描述并进行编码;4)对视觉和文本特征进行编码;5)解码生成描述。这种方法关注信息范围广,生成描述更简单高效。生成描述更简单高效。生成描述更简单高效。

【技术实现步骤摘要】
基于参考前置描述的图像描述生成方法


[0001]本专利技术涉及计算机视觉和自然语言处理领域,具体是一种基于参考前置描述的图像描述生成方法。

技术介绍

[0002]随着互联网与信息技术的发展,多媒体数据呈现爆炸性增长的趋势,从各种信息源(如网络、新闻、相机等)上可获得的图像数据越来越多。由于图像数据具有海量特性和非结构化特性,如何快速有效的组织、存储和检索图像,成为重要的研究课题,而完备的图像语义理解则是其中的关键问题。尽管从信息源上获取的大多数图像并没有对应的语义描述,但人类仍然能够在很大程度上理解它们。也就是说,人类很容易就能完成涉及复杂视觉识别以及场景理解的各种任务、涉及自然语言交流的各种任务以及2种模态之间的转换任务,而计算机很难做得到。为了进一步研究更符合人类感知的视觉智能,迫切需要机器能够为给定图像自动地生成自然语言描述。
[0003]图像描述生成类似于自然语言处理中机器翻译任务,目标是给定一张图片,生成语法正确的自然语言描述图像的语义内容,是介于计算机视觉和自然语言处理的一项复杂性的任务,其主要应用在信息检索、盲人导航、辅助教育等方面。该任务近年来吸引了大量的研究人员的目光,主要是采用编码器

解码器的方法,研究的难点在于不仅要解决图像和文本这两种模态之间的语义鸿沟问题,使输入图像和生成文本能够具备合理的对齐方式,即生成文本能够正确表达图像的内容,包括图像中的显著对象、对象的属性和交互对象间的关系;更重要的是,描述生成模型能够具备一定的推理出数据集之外的新实体和新联系的能力,并能揭示图像中的隐含意图。近年来流行的研究方法采用基于深度神经网络的编码器

解码器生成架构,并集成注意机制和强化学习优化策略提升描述语句生成质量。然而,针对如何高效地利用来自图像

文本数据内外部的高级语义知识来辅助生成更加语义连贯和符合人类表达习惯的描述语句的研究,仍然处在初期的探索阶段。

技术实现思路

[0004]本专利技术的目的是针对现有技术中存在的不足,而提供一种基于参考前置描述的图像描述生成方法。这种方法关注信息范围广,生成描述更简单高效。
[0005]实现本专利技术目的的技术方案是:
[0006]基于参考前置描述的图像描述生成方法,包括如下步骤:
[0007]1)划分数据集,构建词表:
[0008]1.1)采用MS

COCO数据集中的图片,每张图片对应五句描述,将MS

COCO数据集中的图片和图片对应的描述分为训练集、验证集和测试集;
[0009]1.2)处理数据集并构建词表:由于一张图片对应五句描述,首先把所有句子的最大长度设置为20,即截断长度大于20的句子,若长度不足20,则用<pad>字符填充所有长度小于20的句子,对所有句子在句首插入<start>表示开始字符,句尾插入<end>字符表示结
束;
[0010]1.3)统计所有句子中每个单词的出现频次,把出现频次少于5的单词替换为<unk>字符,把剩下的单词按出现频次排序加上<start>、<end>、<unk>和<pad>这个四个特殊字符,得到长度为9487的词表;
[0011]2)获取图像区域特征:
[0012]使用主干网络为ResNet

101的Faster R

CNN获取图像特征,Faster R

CNN的工作流程分为3个步骤:

将图像输入主干网络得到相应的特征图;

使用区域建议网络生成候选框,将区域建议网络生成的候选框投影到特征图上获得相应的特征矩阵;

将每个特征矩阵通过ROI pooling层缩放到7
×
7大小的特征图,接着将特征图平展通过一系列全连接层得到预测结果,然后在MS

C0C0数据集上进行训练,并使用训练后的模型获取图像区域特征;
[0013]2.1)主干网络ResNet

101:
[0014]2.1.1)首先对数据集中的图像进行固定大小的随机裁剪,再将裁剪后的图像进行随机水平翻转和亮度变换,后将翻转后的图像进行归一化,使每张图片的维度为224
×
224
×
3,224
×
224
×
3分别表示长、宽、通道;
[0015]2.1.2)把图片送入ResNet

101中,提取conv5_x的输出特征,获得7
×7×
2048的特征图1;
[0016]2.2)区域建议网络RPN:
[0017]首先预设锚框的尺度为1:2,1:1,2:1;
[0018]2.2.1)将特征图1送入3
×
3卷积层,并在卷积遍历过程中,每个中心点根据预设尺度为1:2,1:1,2:1生成9个锚框;
[0019]2.2.2)把得到的锚框送入1
×
1卷积层得到通道数为18特征图2,把特征图2送入softmax函数中,得到9个锚框的二分类概率代表前景和背景的概率,同时把得到的锚框送入另一个1
×
1卷积层,得到通道数为36的特征图3,表示为9个锚框的坐标点,然后把上述得到的二分类概率和坐标点一起输入建议层,建议层根据二分类概率排序锚框,再把锚框映射回原图大小,根据坐标点剔除超出边界的锚框,然后使用非极大值抑制剔除一部分锚框,最后把剩余的锚框按照前景概率值排序,保留前36个锚框作为建议区域;
[0020]2.3)兴趣区域池化层ROI Pooling;
[0021]由于步骤2.2)得到的建议区域大小不一致,使用ROI Pooling使每一个区域维度一致,具体流程为:将每个建议区域水平和竖直都分为7份,对每一份都进行max pooling处理,处理后,即使大小不同的建议区域,输出结果都是7
×
7大小;
[0022]2.4)分类层:
[0023]把ROI Pooling得到建议区域送入两层全连接层,然后再使用一个全连接层预测边界框,同时使用另一个全连接层加softmax函数预测分类概率;
[0024]2.5)训练:
[0025]把构建好的Faster R

CNN模型在MS

COCO数据集上训练;
[0026]2.6)获取区域特征:
[0027]把每张输入图片送入训练好的Faster R

CNN中,提取ROI Pooling层得到的各个建议区域的特征的均值作为图像的区域特征,即每张图片的特征{v1,...,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于参考前置描述的图像描述生成方法,其特征在于,包括如下步骤:1)划分数据集,构建词表:1.1)采用MS

COCO数据集中的图片,每张图片对应五句描述,将MS

COCO数据集中的图片和图片对应的描述分为训练集、验证集和测试集;1.2)处理数据集并构建词表:由于一张图片对应五句描述,首先把所有句子的最大长度设置为20,即截断长度大于20的句子,若长度不足20,则用<pad>字符填充所有长度小于20的句子,对所有句子在句首插入<start>表示开始字符,句尾插入<end>字符表示结束;1.3)统计所有句子中每个单词的出现频次,把出现频次少于5的单词替换为<unk>字符,把剩下的单词按出现频次排序加上<start>、<end>、<unk>和<pad>这个四个特殊字符,得到长度为9487的词表;2)获取图像区域特征:使用主干网络为ResNet

101的Faster R

CNN获取图像特征,Faster R

CNN的工作流程分为3个步骤:

将图像输入主干网络得到相应的特征图;

使用区域建议网络生成候选框,将区域建议网络生成的候选框投影到特征图上获得相应的特征矩阵;

将每个特征矩阵通过ROI pooling层缩放到7
×
7大小的特征图,接着将特征图平展通过一系列全连接层得到预测结果,然后在MS

C0C0数据集上进行训练,并使用训练后的模型获取图像区域特征;2.1)主干网络ResNet

101:2.1.1)首先对数据集中的图像进行固定大小的随机裁剪,再将裁剪后的图像进行随机水平翻转和亮度变换,然后将翻转后的图像进行归一化,使每张图片的维度为224
×
224
×
3;2.1.2)把图片送入ResNet

101中,提取conv5_x的输出特征,获得7
×7×
2048的特征图1;2.2)区域建议网络RPN:首先预设锚框的尺度为1:2,1:1,2:1;2.2.1)将特征图1送入3
×
3卷积层,并在卷积遍历过程中,每个中心点根据预设尺度为1:2,1:1,2:1生成9个锚框;2.2.2)把得到的锚框送入1
×
1卷积层得到通道数为18特征图2,把特征图2送入softmax函数中,得到9个锚框的二分类概率代表前景和背景的概率,同时把得到的锚框送入另一个1
×
1卷积层,得到通道数为36的特征图3,表示为9个锚框的坐标点,然后把上述得到的二分类概率和坐标点一起输入建议层,建议层根据二分类概率排序锚框,再把锚框映射回原图大小,根据坐标点剔除超出边界的锚框,然后使用非极大值抑制剔除一部分锚框,最后把剩余的锚框按照前景概率值排序,保留前36个锚框作为建议区域;2.3)兴趣区域池化层ROI Pooling;由于步骤2.2)得到的建议区域大小不一致,使用ROI Pooling使每一个区域维度一致,具体流程为:将每个建议区域水平和竖直都分为7份,对每一份都进行max pooling处理,处理后,即使大小不同的建议区域,输出结果都是7
×
7大小;2.4)分类层:把ROI Pooling得到建议区域送入两层全连接层,然后再使用一个全连接层预测边界
框,同时使用另一个全连接层加softmax函数预测分类概率;2.5)训练:把构建好的Faster R

CNN模型在MS

COCO数据集上训练;2.6)获取区域特征:把每张输入图片送入训练好的Faster R

CNN中,提取ROI Pooling层得到的各个建议区域的特征的均值作为图像的区域特征,即每张图片的特征{v1,...,v
k
},维度为36
×
2048,36个建议区域,每个建议区域表示为2048维的向量;3)构建前置模型,获取前置描述并进行编码:3.1)构建前置模型:前置模型包括两个单层LSTM和一个注意力模块;第一个LSTM的输入为以及上一时间步的隐状态,输出为其中为第二层LSTM的上一时间步输出,E为当前时间步的词嵌入;注意力模块的输入为输出为具体计算过程如下:α
t
=softmax(a
t
)其中{v1,...,v
k
}为k个图像特征,W
va
、W
ha
为学习的参数;第二个LSTM的输入为以及上一时间步的隐状态,...

【专利技术属性】
技术研发人员:李志欣冼添涛
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1