【技术实现步骤摘要】
一种图像描述方法及装置
本申请涉及图像描述和机器学习领域,尤其涉及一种图像描述方法及装置。
技术介绍
图像描述(ImageCaption)是一种融合了计算机视觉技术、自然语言处理技术以及机器学习技术的综合性新兴学科。图像描述的目的是根据图片内容自动生成一段描述性文字,其重点在于不仅需要准确的识别图片中的物体,还需要理解不同物体之间的相互关系,并用合理的语言描述出来。现有的图像描述方法主要采用了编码(Encoder)-解码(Decoder)模型结构,这种结构最早来源于机器翻译领域的用于解决源语言和目标语言句子长度不同的RNN模型;类似的,在图像描述领域使用的Encoder-Decoder模型,则是用图像代替了机器翻译中输入的单词序列。例如,使用CNN模型从输入图像(即一系列像素值)中提取出相应的视觉特征,再使用引入attention机制的LSTM模型将该特征解码成输出序列。但是,这种模型受模型结构限制,不能执行并行计算,导致模型训练的时间过长,严重影响了图像描述的运算效率。因此,需要提供一种训练时间短、图像描述更加准确的图像描述方法及装置。
技术实现思路
有鉴于此,本说明书实施例提供了一种图像描述方法及装置,用于解决现有技术中的问题。本说明书实施例采用下述技术方案:本说明书实施例提供一种图像描述方法,包括将获取的全局图像信息输入至全局编码器组,并获得图像的全局特征信息;将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息;将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述;其中,所述解码器组采用了基于 ...
【技术保护点】
1.一种图像描述方法,包括:将获取的图像的全局图像信息输入至全局编码器组,并获得图像的全局特征信息;将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息;将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述;其中,所述解码器组采用了基于transformer模型的扩展结构。
【技术特征摘要】
1.一种图像描述方法,包括:将获取的图像的全局图像信息输入至全局编码器组,并获得图像的全局特征信息;将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息;将所述全局特征信息、所述目标特征信息和获取的目标向量输入至解码器组,并获得对应的图像描述;其中,所述解码器组采用了基于transformer模型的扩展结构。2.如权利要求1所述图像描述方法,其特征在于,获取所述全局图像信息包括:利用CNN网络对图像进行编码,并获取所述全局图像信息。3.如权利要求2所述图像描述方法,其特征在于,获取所述全局图像信息进一步包括:获得CNN网络的最后一层卷积的featuremap;对所述最后一层卷积的featuremap执行位置编码,获得所述全局图像信息。4.如权利要求1所述图像描述方法,其特征在于,获取所述目标检测信息包括:利用Faster-RCNN网络对图像进行目标检测编码,并获取所述目标检测信息。5.如权利要求4所述图像描述方法,其特征在于,获取所述目标检测信息进一步包括:获得Faster-RCNN网络的第FC6层;根据所述第FC6层,获得所述目标检测信息。6.如权利要求1所述图像描述方法,其特征在于,获取所述目标向量包括:根据当前目标词之前的所述解码器组获得的解码结果,获取所述目标向量。7.如权利要求6所述图像描述方法,其特征在于,获取所述目标向量进一步包括:针对所述解码结果执行词语转换和位置编码,获取所述目标向量。8.如权利要求1所述图像描述方法,其特征在于,将获取的全局图像信息输入至全局编码器组,并获得图像的全局特征信息进一步包括:将所述全局图像信息输入至最下层所述全局编码器,经自注意层和前馈层,获得最下层所述全局编码器的输出;将最下层所述全局编码器的输出作为上一层所述全局编码器的输入执行迭代运算,直到获得所述最上层全局编码器的前馈层的输出作为全局特征信息。9.如权利要求8所述图像描述方法,其特征在于,所述全局编码器中的自注意层和前馈层之间还包括残差连接处理和层归一化处理。10.如权利要求1所述图像描述方法,其特征在于,所述目标编码器组包括依次堆叠的若干目标编码器,所述各目标编码器由下至上均依次包括自注意层、全局注意层和前馈层。11.如权利要求10所述图像描述方法,其特征在于,将所述全局特征信息和获取的目标检测信息输入至目标编码器组,并获得目标特征信息进一步包括:将所述目标检测信息输入至最下层所述目标编码器的自注意层,并...
【专利技术属性】
技术研发人员:廖敏鹏,白静,李长亮,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。