【技术实现步骤摘要】
一种融合视觉上下文的图像描述方法
本专利技术涉及计算机视觉
和自然语言处理领域,具体是深度神经网络和强化学习方法中的一种融合视觉上下文的图像描述方法。
技术介绍
图像描述可以理解为给定一张图片,生成一段用自然语言描述的文字,图像描述和视觉问答属于计算机视觉和自然语言处理的交叉的领域,比目标检测、图片分类和语义分割等任务更具有挑战性,因为它在抽取图像实体和属性的同时还要推理出实体和属性之间的关系,图像描述在盲人导航、儿童早教、图文检索等方面有着广泛应用前景。图像描述中需要使用编码网络和解码网络,残差网络的提出解决了编码网络在训练中梯度弥散的问题,使得编码网络的层数大大增加,图像描述中使用编码网络提取图像特征,通过不同尺寸的卷积核得到不同尺寸的特征通道,受机器翻译的启发,将编码网络替换成解码网络,解码网络(RecurrentNeuralNetwork,简称RNN)通过带有树状相似的编码网络结构来递归复杂的深度网络,本质上,解码网络是对循环神经网络的一个有效扩展,他们具有不同的计算图,解码网络包括层内的加权连接(与传 ...
【技术保护点】
1.一种融合视觉上下文的图像描述方法,其特征在于,包括如下步骤:/n1)预处理:将MS-COCO图像描述数据集中的图像分为训练集和测试集,分别对训练集和测试集中的图像进行预处理;/n2)图像的描述标签进行预处理:训练集中的每张图像对应的5句话作为图像的描述标签,设定每张图像的描述为16个单词长度,对于不满16个单词的句子使用令牌填充,出现次数少于5次的单词过滤舍弃,其中图像对应的描述标签为固定值,每张图像的描述长度自行设定;/n3)提取特征:将训练集中的图像经过编码网络提取图像的特征,即裁剪或扩充图像的大小为512*512,并经过编码网络中卷积核大小为7*7的卷积层进行卷积 ...
【技术特征摘要】
1.一种融合视觉上下文的图像描述方法,其特征在于,包括如下步骤:
1)预处理:将MS-COCO图像描述数据集中的图像分为训练集和测试集,分别对训练集和测试集中的图像进行预处理;
2)图像的描述标签进行预处理:训练集中的每张图像对应的5句话作为图像的描述标签,设定每张图像的描述为16个单词长度,对于不满16个单词的句子使用令牌填充,出现次数少于5次的单词过滤舍弃,其中图像对应的描述标签为固定值,每张图像的描述长度自行设定;
3)提取特征:将训练集中的图像经过编码网络提取图像的特征,即裁剪或扩充图像的大小为512*512,并经过编码网络中卷积核大小为7*7的卷积层进行卷积,此时图像的特征通道变为64维,特征图缩小一倍;
4)均值池化:将步骤3)的特征图进行下采样,然后经过均值池化得到池化特征图1;
5)卷积、均值采样池化:将池化特征图1进行卷积运算,再次通过均值采样进行池化操作,此时卷积通道为128维,特征图缩小4倍,得到池化特征图2;
6)获取检测图像实体:将池化特征图2通过Sigmoid函数进行激活,然后通过编码网络的全连接层1输出特征图2到融合网络的模块控制器中,再经过5*5的卷积层卷积,得到图像的初级特征图,初级特征图作为检测图像的实体;
7)获取实体属性:步骤6所得的每个实体经过编码网络的区域推荐网络生成36个区域推荐候选框,对每个候选框进行卷积得到对应实体的属性;
8)卷积:将步骤6)中的初级特征图进行卷积操作,得到特征图3,此时使用的卷积核为3*3,卷积通道为256维,特征图3缩小8倍;
9)获取实体属性特征:对特征图3通过Tanh函数进行激活,然后通过编码网络的全连接层2输出激活后的特征图3到融合网络中的模块控制器中,得到特征图4,特征图4作为实体的属性特征;
10)对特征图3进行卷积操作,此时特征图3的大小是64*64,通道大小为256维,经过3*3的卷积核之后,得到特征图5,特征图5的大小为32*32,图像通道大小为512维;
11)对特征图5经过大小为3*3的卷积核卷积,得到图像大小为16*16,图像通道为1024维的特征图6;
12)对特征图6经过大小为3*3的卷积核卷积,得到图像大小为8*8,图像通道为2048维的特征图7;
13)获取实体和属性的关系:对特征图7进行最大值池化操作,然后选取ReLu作为激活函数对池化后的特征图7进行激活,激活后的特征图7作为实体和属性的关系通过编码网络的全连接层3送入到融合网络的模块控制器和融合模块中;
14)搭配实体和属性的关系:模块控制器对步骤13)中送入到模块控制器中的特征图7作为实体和属性的关系进行搭配,其中搭配的视觉信息由融合网络生成,非视觉信息由解码网络生成;
15)LSTM训练:将搭配后的特征图7输入到解码网络中的LSTM进行训练,在训练的过程中下一单词生成使用的是标签描述;
16)解决暴露偏差:经过40轮迭代后,使用强化学习训练解决解码网络的暴露偏差,强化学习的奖励选取CIDEr,然后将CIDEr送入到融合网络的模块控制器和融合网络中;
17)降低维度:将训练好的句子通过LSTM输出到解码网络的全连接层进行降低...
【专利技术属性】
技术研发人员:张灿龙,周东明,李志欣,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。