一种图像描述方法及装置制造方法及图纸

技术编号:22331455 阅读:30 留言:0更新日期:2019-10-19 12:31
本说明书实施例公开了一种图像描述方法及装置,包括将获取的图像的全局图像信息输入至全局编码器组,并获得图像的全局特征信息;将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息;将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述;其中,所述解码器组采用了基于transformer模型的扩展结构。

【技术实现步骤摘要】
一种图像描述方法及装置
本申请涉及图像描述和机器学习领域,尤其涉及一种图像描述方法及装置。
技术介绍
图像描述(ImageCaption)是一种融合了计算机视觉技术、自然语言处理技术以及机器学习技术的综合性新兴学科。图像描述的目的是根据图片内容自动生成一段描述性文字,其重点在于不仅需要准确的识别图片中的物体,还需要理解不同物体之间的相互关系,并用合理的语言描述出来。现有的图像描述方法主要采用了编码(Encoder)-解码(Decoder)模型结构,这种结构最早来源于机器翻译领域的用于解决源语言和目标语言句子长度不同的RNN模型;类似的,在图像描述领域使用的Encoder-Decoder模型,则是用图像代替了机器翻译中输入的单词序列。例如,使用CNN模型从输入图像(即一系列像素值)中提取出相应的视觉特征,再使用引入attention机制的LSTM模型将该特征解码成输出序列。但是,这种模型受模型结构限制,不能执行并行计算,导致模型训练的时间过长,严重影响了图像描述的运算效率。因此,需要提供一种训练时间短、图像描述更加准确的图像描述方法及装置。
技术实现思路
有鉴于此,本说明书实施例提供了一种图像描述方法及装置,用于解决现有技术中的问题。本说明书实施例采用下述技术方案:本说明书实施例提供一种图像描述方法,包括将获取的全局图像信息输入至全局编码器组,并获得图像的全局特征信息;将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息;将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述;其中,所述解码器组采用了基于transformer模型的扩展结构。在一个或多个实施例中,获取所述全局图像信息包括利用CNN网络对图像进行编码,并获取所述全局图像信息。在一个或多个实施例中,获取所述全局图像信息进一步包括:获得CNN网络的最后一层卷积的featuremap;对所述最后一层卷积的featuremap执行位置编码,获得所述全局图像信息。在一个或多个实施例中,获取所述目标检测信息包括:利用Faster-RCNN网络对图像进行目标检测编码,并获取所述目标检测信息。在一个或多个实施例中,获取所述目标检测信息进一步包括:获得Faster-RCNN网络的第FC6层;根据所述第FC6层,获得所述目标检测信息。在一个或多个实施例中,获取所述目标向量包括:根据当前目标词之前的所述解码器组获得的解码结果,获取所述目标向量。在一个或多个实施例中,获取所述目标向量进一步包括:针对所述解码结果执行词语转换和位置编码,获取所述目标向量。在一个或多个实施例中,所述全局编码器组包括依次堆叠的若干全局编码器,所述各全局编码器由下至上均依次包括自注意层和前馈层。在一个或多个实施例中,将获取的全局图像信息输入至全局编码器组,并获得图像的全局特征信息进一步包括:将所述全局图像信息输入至最下层所述全局编码器,经自注意层和前馈层,获得最下层所述全局编码器的输出;将最下层所述全局编码器的输出作为上一层所述全局编码器的输入执行迭代运算,直到获得所述最上层全局编码器的前馈层的输出作为全局特征信息。在一个或多个实施例中,所述全局编码器组中的自注意层和前馈层之间还包括残差连接处理和层归一化处理。在一个或多个实施例中,所述目标编码器组包括依次堆叠的若干目标编码器,所述各目标编码器由下至上均依次包括自注意层、全局注意层和前馈层。在一个或多个实施例中,将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息进一步包括:将所述目标检测信息输入至最下层所述目标编码器的自注意层,并获得最下层所述目标编码器自注意层的输出;将最下层所述目标编码器自注意层的输出与所述全局特征信息输入至最下层所述目标编码器的全局注意层,并获得最下层所述目标编码器的输出;将最下层所述目标编码器的输出作为上一层所述目标编码器的自注意层的输入执行迭代运算,直到获得所述最上层目标编码器的全局注意层的输出作为目标特征信息。在一个或多个实施例中,所述解码器组包括依次堆叠的若干解码器,所述各解码器由下至上均依次包括自注意层、全局注意层、编-解码层和前馈层。在一个或多个实施例中,将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述进一步包括:将所述目标向量输入至最下层所述解码器的自注意层,并获得最下层所述解码器自注意层的输出;将最下层所述解码器自注意层的输出与所述全局特征信息输入至最下层所述解码器的全局注意层,并获得最下层所述解码器全局注意层的输出;将最下层所述解码器全局注意层的输出与所述目标特征信息输入至最下层所述解码器的编-解码注意层,并获得最下层所述解码器编-解码注意层的输出;将最下层所述解码器编-解码注意层的输出输入至最下层所述解码器的前馈层,并获得最下层所述解码器的输出;将所述最下层所述解码器的输出作为上一层所述解码器的自注意层的输入执行迭代运算,直到获得所述最上层解码器的输出作为对应的图像描述。在一个或多个实施例中,将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述进一步包括:针对所述解码器组的输出执行归一化处理,获得对应的图像描述。在一个或多个实施例中,所述全局图像信息包括与所述待检测目标相关联的至少一组图像特征信息。在一个或多个实施例中,所述图像特征信息包括利用不同的图像特征提取方法提取的多组特征信息。在一个或多个实施例中,所述图像特征信息包括针对包含所述待检测目标的不同图像提取的多组特征信息。在一个或多个实施例中,所述图像特征信息包括利用ResNet网络和VGG网络分别针对包含所述待检测目标图像提取的两组特征信息。本说明书实施例还提供一种图像描述装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器运行所述程序时执行如上所述的步骤。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:本说明书一个或多个实施例提供了一种图像描述方法及装置,结合了视觉注意力机制和视觉注意力转移的过程,在图像描述任务中根据当前生成的语境、语义和图像全局信息,以及得到的目标检测信息构建了基于transformer扩展结构的图像描述算法模型,该模型在解码端采用了全局解码端和目标解码端相结合,不仅关注了图像的局部信息,同时也关注了图像的全局信息,使得生成的图像描述更加准确;由于采用了基于transformer的扩展结构,使得算法模型在执行运算时能够适合并行计算,能够缩短模型训练时间,大幅度提高图像描述算法模型的运算效率。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是本说明书一个或多个实施例的LSTM结构示意图;图2是本说明书一个或多个实施例提供的Transformer模型示意图;图3是本说明书一个或多个实施例的图像描述算法模型结构示意图;图4是现有的Transformer模型示意图。图5是本说明书一个或多个实施例的实例一图像;图6是本说明书一个或多个实施例的实例二图像。具体实施方式为使本申请的目的、技术方案和优点更加清本文档来自技高网...

【技术保护点】
1.一种图像描述方法,包括:将获取的图像的全局图像信息输入至全局编码器组,并获得图像的全局特征信息;将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息;将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述;其中,所述解码器组采用了基于transformer模型的扩展结构。

【技术特征摘要】
1.一种图像描述方法,包括:将获取的图像的全局图像信息输入至全局编码器组,并获得图像的全局特征信息;将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息;将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述;其中,所述解码器组采用了基于transformer模型的扩展结构。2.如权利要求1所述图像描述方法,其特征在于,获取所述全局图像信息包括:利用CNN网络对图像进行编码,并获取所述全局图像信息。3.如权利要求2所述图像描述方法,其特征在于,获取所述全局图像信息进一步包括:获得CNN网络的最后一层卷积的featuremap;对所述最后一层卷积的featuremap执行位置编码,获得所述全局图像信息。4.如权利要求1所述图像描述方法,其特征在于,获取所述目标检测信息包括:利用Faster-RCNN网络对图像进行目标检测编码,并获取所述目标检测信息。5.如权利要求4所述图像描述方法,其特征在于,获取所述目标检测信息进一步包括:获得Faster-RCNN网络的第FC6层;根据所述第FC6层,获得所述目标检测信息。6.如权利要求1所述图像描述方法,其特征在于,获取所述目标向量包括:根据当前目标词之前的所述解码器组获得的解码结果,获取所述目标向量。7.如权利要求6所述图像描述方法,其特征在于,获取所述目标向量进一步包括:针对所述解码结果执行词语转换和位置编码,获取所述目标向量。8.如权利要求1所述图像描述方法,其特征在于,将获取的全局图像信息输入至全局编码器组,并获得图像的全局特征信息进一步包括:将所述全局图像信息输入至最下层所述全局编码器,经自注意层和前馈层,获得最下层所述全局编码器的输出;将最下层所述全局编码器的输出作为上一层所述全局编码器的输入执行迭代运算,直到获得所述最上层全局编码器的前馈层的输出作为全局特征信息。9.如权利要求8所述图像描述方法,其特征在于,所述全局编码器中的自注意层和前馈层之间还包括残差连接处理和层归一化处理。10.如权利要求1所述图像描述方法,其特征在于,所述目标编码器组包括依次堆叠的若干目标编码器,所述各目标编码器由下至上均依次包括自注意层、全局注意层和前馈层。11.如权利要求10所述图像描述方法,其特征在于,将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息进一步包括:将所述目标检测信息输入至最下层所述目标编码器的自注意层,并...

【专利技术属性】
技术研发人员:廖敏鹏白静李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1