【技术实现步骤摘要】
基于层次化特征关系图构建的图像描述方法
本专利技术涉及计算机视觉识别领域,更具体地,涉及一种基于层次化特征关系图构建的图像描述方法。
技术介绍
近年来,图像描述作为计算机视觉和自然语言处理交叉学科,受到了越来越多的关注。图像描述是指给定一张输入图像,需要设计算法使得计算机学会用语法和语义正确的句子来描述图像中的内容。因此图像描述对于机器来说是非常困难的,因为机器需要学习辨识图像中的物体、场景等信息,同时还需要去理解不同物体之间、物体与背景之间的内在联系。但是这个研究方向却是有价值的,因为图像描述具有广泛的应用前景,如早期的儿童教育、新一代的人机交换系统和工作个人助手等。最近,研究者们将自然语言处理中的注意力机制引入到图像描述领域中,并在生成不同单词的时候引导模型关注到图像中的不同区域,基于关注到的区块预测单词。随后,研究者们修改并扩大关注机制的应用范围,改良出了区块视觉关注机制、目标视觉关注机制、文本视觉关注机制和通道视觉关注机制等。这些方法能够充分提高图像描述中描述句子的丰富度和准确度,大力推动了图像描述研究的进程。然而,这些方法都还存在不足之处,现有技术中的图 ...
【技术保护点】
1.基于层次化特征关系图构建的图像描述方法,其特征在于:包括以下步骤:S1:收集训练图像、训练图像的坐标信息以及描述训练图像的参考文本,构建训练数据集;S2:将训练图像输入区块检测模块中,输出区块视觉信息;S3:将训练图像输入目标检测模块中,输出目标视觉信息,并根据目标视觉信息包括的目标框坐标信息与训练数据集中的坐标信息比较,计算分类的损失函数L1,优化目标检测模块参数;S4:将训练图像输入文本检测模块中,输出文本视觉信息,并根据文本视觉信息包括的检测文本与训练数据集中的参考文本比较,计算分类的损失函数L2,优化文本检测模块参数;S5:将所述区块视觉信息、目标视觉信息和文本 ...
【技术特征摘要】
1.基于层次化特征关系图构建的图像描述方法,其特征在于:包括以下步骤:S1:收集训练图像、训练图像的坐标信息以及描述训练图像的参考文本,构建训练数据集;S2:将训练图像输入区块检测模块中,输出区块视觉信息;S3:将训练图像输入目标检测模块中,输出目标视觉信息,并根据目标视觉信息包括的目标框坐标信息与训练数据集中的坐标信息比较,计算分类的损失函数L1,优化目标检测模块参数;S4:将训练图像输入文本检测模块中,输出文本视觉信息,并根据文本视觉信息包括的检测文本与训练数据集中的参考文本比较,计算分类的损失函数L2,优化文本检测模块参数;S5:将所述区块视觉信息、目标视觉信息和文本视觉信息分别输入描述生成器中,通过构建所述三种视觉信息分别与训练图像坐标信息的关系图,对所述三种视觉信息分别进行优化;S6:利用关注机制分别对优化后的区块视觉信息、目标视觉信息和文本视觉信息进行视觉信息筛选,再输入多元融合模块中进行特征融合,得到多模态特征;S7:将多模态特征和当前时刻的语义信息输入递归神经网络中提取特征信息,并预测下一个单词,并将所预测的结果和训练数据集中的信息比较,计算分类的损失函数L3,优化递归神经网络中的参数;S8:重复S2~S7,至损失函数L1,L2,L3收敛至某一指定值;S9:将待图像描述的图片输入区块检测模块、目标检测模块和文本检测模块中,分别获得区块视觉信息、目标视觉信息和文本视觉信息,输入描述生成器中通过构建所述三种视觉信息分别与输入图像的坐标信息之间的关系图对所述三种视觉信息进行优化,再利用关注机制对所述三种视觉信息进行视觉信息筛选,并输入到多元融合模块中进行特征融合,最后输入到递归神经网络预测下一个描述单词至生成完整的描述句子。2.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S2步骤的具体步骤包括:S2.1:从互联网上下载在ImageNet上完成预训练的ResNet参数文件;S2.2:将训练数据集的图片输入ResNet中,读取已下载的参数,将输出的区块特征图作为区块视觉信息。3.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S3步骤的具体步骤包括:S3.1:将训练图像输入目标检测模块中的卷积神经网络中,提取图像的高维区块视觉特征;S3.2:在图像中高维区块视觉特征的位置上放置9个不同长宽比的偏置框;S3.3:将带偏置框的高维区块视觉特征输入区域提议网络中,输出目标框与偏置框的坐标偏移值和目标框包含物体的置信得分;S3.4:保留置信得分最高的K个目标框,利用最大值池化操作,根据目标框坐标在高维区块视觉特征上切割与目标框相同数目的目标视觉信息;S3.5:将目标视觉信息输入三个独立的全连接层中,输出该目标视觉信息的高层次语义特征、预测的目标视觉信息类别和目标框的偏移值,然后根据预测类别和偏移值对目标框进行修正;S3.6:将目标框的坐标信息和训练图像的坐标信息比较,计算分类与回归的损失函数L1,利用梯度反向传播方法对目标检测模块各层的参数进行更新;所述损失函数L1的具体公式如下:其中,N为训练的目标框数量,Lcis(*)表示交叉熵损失函数,c为目标视觉信息各类别的概率,为正确类别的索引,Lreg(*)表示回归损失函数,b为目标框的坐标值,为训练图像中正确的坐标值。4.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S4步骤的具体步骤包括:S4.1:将训练数据集中的参考文本拆分成单词,保留含有视觉信息的单词,并从中挑选出现频率最高的1000个单词作为字典;S4.2:删除ResNet中最后一层全连接层,再连接三个独立的全连接层作为文本检测模块,将训练图像输入文本检测模块中输出字典中所有单词的出现概率,选取概率最高的10个单词作为文本视觉信息;S4.3:将文本视觉信息和训练数据集中的参考文本作比较,计算多标签分类的损失函数L2,通过梯度反向传播更新文本检测模块的参数,使损失值最小化;其中,损失函数L2的公式如下:其中,N为检测文本的个数,pi为检测文本中单词出现的概率;当检测文本与参考文本相符时,pi*为1,否则为0。5.根据权利要求1所述的基于层次化特征关系图构建的图像描述方法,其特征在于:所述S5步骤中,将区块视觉信息输入描述生成器为步骤S5.1,其具体步骤包括:S5.1.1:将区块视觉信息输入描述生成器中,将区块视觉信息中各个区块作为关系图的顶点,区块视觉信息与训练图像坐标信息的关系作为关系图的边,完成区块视觉信息关系图的构建;S5.1.2:将当前时刻的语义信息与K×K个区块进行结合,得到特征矩阵E1,再将矩阵E1进行自乘得到邻接矩...
【专利技术属性】
技术研发人员:胡海峰,王伟轩,于遨波,陈志鸿,朱蔚中,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。