一种图像描述方法、装置、设备、存储介质制造方法及图纸

技术编号:33714497 阅读:19 留言:0更新日期:2022-06-06 08:54
本申请公开了一种图像描述方法、装置、设备及存储介质,包括:提取待描述图像的图像特征图和掩膜信息;对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息;利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果;利用预设文本提取器,从预先编码的文本中提取文本信息,并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中,以生成所述待描述图像对应的文本。通过本申请可以提取到前景与背景之间的语义信息,并将掩膜信息作为位置编码,有利于整体结构收敛,能够提高整体适应性和鲁棒性,减少编解码计算量,实现更加准确的图像描述。描述。描述。

【技术实现步骤摘要】
一种图像描述方法、装置、设备、存储介质


[0001]本专利技术涉及图像处理
,特别涉及一种图像描述方法、装置、设备、存储介质。

技术介绍

[0002]当前,计算机将图像中的场景、色彩、目标等底层视觉特征自动建立关系,得到人类可以理解的高层语义信息,即对该图像的文字描述。该技术可以应用于人文关怀、智慧家居、智慧交通、医疗诊断等领域,比如可以帮助视障人士了解身边物体,马路情况等;在安防场景中,可以直接根据摄像头获取的场景图像,并对场景中目标的危险行为进行直接预警等;在医疗诊断领域,可以通过医疗影像直接得到诊断结果,提高医生诊断效率;图像描述这项技术对人们的日常生活有着重要的实际意义。
[0003]现有技术中,图像描述可以简单地分为两部分:图像特征提取和编解码结构;目前常用Faster R

CNN(目标检测算法)进行图像特征的提取,再通过主流的编解码结构Transformer完成图像与文本信息的融合。但这种方式提取的更多是前景目标的特征,获得的图像信息并不全面,影响图像描述结果的准确性;同时使用现有的Transformer编解码结构使得模型的计算量巨大,训练得到的模型实用性差。
[0004]综上可见,如何提取到更丰富的图像信息,并减少编解码计算量,实现更加准确的图像描述是本领域有待解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种图像描述方法、装置、设备、存储介质,能够提取到更丰富的图像信息,并减少编解码计算量,实现更加准确的图像描述。其具体方案如下:
[0006]第一方面,本申请公开了一种图像描述方法,包括:
[0007]提取待描述图像的图像特征图和掩膜信息;
[0008]对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息;
[0009]利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果;
[0010]利用预设文本提取器,从预先编码的文本中提取文本信息,并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中,以生成所述待描述图像对应的文本。
[0011]可选的,所述提取待描述图像的图像特征图和掩膜信息,包括:
[0012]基于全景分割算法对待描述图像的图像特征图中的前景目标与背景进行特征提取,以得到所述前景目标与所述背景之间的关联性、不同所述前景目标之间的关联性以及掩膜信息;
[0013]相应的,所述利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果,包括:
[0014]利用所述预设编码器对所述前景目标与所述背景之间的关联性和不同所述前景目标之间的关联性进行处理,以得到相应的图像特征图编码结果。
[0015]可选的,所述对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息,包括:
[0016]将所述图像特征图和所述掩膜信息输入预设下采样模块中,以得到降维后的目标图像特征图以及作为位置编码的目标掩膜信息。
[0017]可选的,所述预设编码器包括依次连接的第一LN归一化层、第一多头自注意力机制、第一IN归一化层、第一FFN层、第二IN归一化层;相应的,所述利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果,包括:
[0018]基于所述第一LN归一化层对所述目标图像特征图中的所有目标图像特征进行归一化处理,以得到归一化目标图像特征;
[0019]利用所述第一多头自注意力机制和所述第一IN归一化层对所述归一化目标图像特征进行特征计算并归一化处理,以得到归一化目标图像特征之间的关系;
[0020]利用所述第一FFN层和所述第二IN归一化层对所述归一化目标图像特征之间的关系进行处理,以得到相应的图像特征图编码结果。
[0021]可选的,所述利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果,包括:
[0022]基于预设编码次数针对所述目标图像特征图进行多次编码,以生成相应的图像特征图编码结果。
[0023]可选的,所述将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中,以生成所述待描述图像对应的文本,包括:
[0024]将所述目标掩膜信息和所述图像特征图编码结果进行拼接,以得到相应的拼接信息,然后将所述拼接信息与所述文本信息输入预设解码器中,以生成所述待描述图像对应的文本描述。
[0025]可选的,所述预设解码器包括依次连接的第二多头自注意力机制、第二LN归一化层、第三多头自注意力机制、第三LN归一化层、第二FFN层、第四LN归一化层;其中,所述将所述拼接信息与所述文本信息输入预设解码器中,以生成所述待描述图像对应的文本描述,包括:
[0026]利用预设文本提取器从预先编码的文本中提取文本信息,并将所述文本信息输入所述第二多头自注意力机制、所述第二LN归一化层,以得到归一化文本信息;
[0027]利用所述第三多头自注意力机制、所述第三LN归一化层、所述第二FFN层、所述第四LN归一化层对所述拼接信息与所述归一化文本信息进行处理,以得到与所述图像特征图中的不同前景目标和背景的对应文本特征;
[0028]利用全连接层对与所述图像特征图对应的所述文本特征进行全局提取,以得到所述图像特征图对应的全局的文本特征,并将所述全局的文本特征输入所述Softmax函数中以得到所述待描述图像对应的文本分数,并根据所述文本分数找到对应的文本,以生成所述待描述图像对应的文本。
[0029]第二方面,本申请公开了一种图像描述装置,包括:
[0030]信息获取模块,用于提取待描述图像的图像特征图和掩膜信息;
[0031]信息降维模块,用于对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息;
[0032]图像编码模块,用于利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果;
[0033]图像描述模块,用于利用预设文本提取器,从预先编码的文本中提取文本信息,并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中,以生成所述待描述图像对应的文本。
[0034]第三方面,本申请公开了一种电子设备,包括:
[0035]存储器,用于保存计算机程序;
[0036]处理器,用于执行所述计算机程序,以实现前述公开的图像描述方法的步骤。
[0037]第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的图像描述方法的步骤。
[0038]可见,本申请公开了一种图像描述方法,包括:提取待描述图像的图像特征图和掩膜信息;对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像描述方法,其特征在于,包括:提取待描述图像的图像特征图和掩膜信息;对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息;利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果;利用预设文本提取器,从预先编码的文本中提取文本信息,并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中,以生成所述待描述图像对应的文本。2.根据权利要求1所述的图像描述方法,其特征在于,所述提取待描述图像的图像特征图和掩膜信息,包括:基于全景分割算法对待描述图像的图像特征图中的前景目标与背景进行特征提取,以得到所述前景目标与所述背景之间的关联性、不同所述前景目标之间的关联性以及掩膜信息;相应的,所述利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果,包括:利用所述预设编码器对所述前景目标与所述背景之间的关联性和不同所述前景目标之间的关联性进行处理,以得到相应的图像特征图编码结果。3.根据权利要求1所述的图像描述方法,其特征在于,所述对所述图像特征图和所述掩膜信息进行降维,以得到目标图像特征图以及作为位置编码的目标掩膜信息,包括:将所述图像特征图和所述掩膜信息输入预设下采样模块中,以得到降维后的目标图像特征图以及作为位置编码的目标掩膜信息。4.根据权利要求1所述的图像描述方法,其特征在于,所述预设编码器包括依次连接的第一LN归一化层、第一多头自注意力机制、第一IN归一化层、第一FFN层、第二IN归一化层;相应的,所述利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果,包括:基于所述第一LN归一化层对所述目标图像特征图中的所有目标图像特征进行归一化处理,以得到归一化目标图像特征;利用所述第一多头自注意力机制和所述第一IN归一化层对所述归一化目标图像特征进行特征计算并归一化处理,以得到归一化目标图像特征之间的关系;利用所述第一FFN层和所述第二IN归一化层对所述归一化目标图像特征之间的关系进行处理,以得到相应的图像特征图编码结果。5.根据权利要求4所述的图像描述方法,其特征在于,所述利用预设编码器对所述目标图像特征图进行图像编码,以得到相应的图像特征图编码结果,包括:基于预设编码次数针对所述目标图像特征图进行多次编码,以生成相应的图像特征图编码结果。6....

【专利技术属性】
技术研发人员:周涛邵蒙悦吴婕李天鹏庄林志吴吉灵
申请(专利权)人:济南博观智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1