一种图像描述方法、装置、设备、存储介质制造方法及图纸

技术编号：33714497 阅读：19 留言：0更新日期：2022-06-06 08:54

本申请公开了一种图像描述方法、装置、设备及存储介质，包括：提取待描述图像的图像特征图和掩膜信息；对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息；利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果；利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。通过本申请可以提取到前景与背景之间的语义信息，并将掩膜信息作为位置编码，有利于整体结构收敛，能够提高整体适应性和鲁棒性，减少编解码计算量，实现更加准确的图像描述。描述。描述。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像描述方法、装置、设备、存储介质

[0001]本专利技术涉及图像处理
，特别涉及一种图像描述方法、装置、设备、存储介质。

技术介绍

[0002]当前，计算机将图像中的场景、色彩、目标等底层视觉特征自动建立关系，得到人类可以理解的高层语义信息，即对该图像的文字描述。该技术可以应用于人文关怀、智慧家居、智慧交通、医疗诊断等领域，比如可以帮助视障人士了解身边物体，马路情况等；在安防场景中，可以直接根据摄像头获取的场景图像，并对场景中目标的危险行为进行直接预警等；在医疗诊断领域，可以通过医疗影像直接得到诊断结果，提高医生诊断效率；图像描述这项技术对人们的日常生活有着重要的实际意义。
[0003]现有技术中，图像描述可以简单地分为两部分：图像特征提取和编解码结构；目前常用Faster R
‑
CNN(目标检测算法)进行图像特征的提取，再通过主流的编解码结构Transformer完成图像与文本信息的融合。但这种方式提取的更多是前景目标的特征，获得的图像信息并不全面，影响图像描述结果的准确性；同时使用现有的Transformer编解码结构使得模型的计算量巨大，训练得到的模型实用性差。
[0004]综上可见，如何提取到更丰富的图像信息，并减少编解码计算量，实现更加准确的图像描述是本领域有待解决的问题。

技术实现思路

[0005]有鉴于此，本专利技术的目的在于提供一种图像描述方法、装置、设备、存储介质，能够提取到更丰富的图像信息，并减少编解码计算量，实现更加准确的图像描述。其...

【技术保护点】

【技术特征摘要】
1.一种图像描述方法，其特征在于，包括：提取待描述图像的图像特征图和掩膜信息；对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息；利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果；利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。2.根据权利要求1所述的图像描述方法，其特征在于，所述提取待描述图像的图像特征图和掩膜信息，包括：基于全景分割算法对待描述图像的图像特征图中的前景目标与背景进行特征提取，以得到所述前景目标与所述背景之间的关联性、不同所述前景目标之间的关联性以及掩膜信息；相应的，所述利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果，包括：利用所述预设编码器对所述前景目标与所述背景之间的关联性和不同所述前景目标之间的关联性进行处理，以得到相应的图像特征图编码结果。3.根据权利要求1所述的图像描述方法，其特征在于，所述对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息，包括：将所述图像特征图和所述掩膜信息输入预设下采样模块中，以得到降维后的目标图像特征图以及作为位置编码的目标掩膜信息。4.根据权利要求1所述的图像描述方法，其特征在于，所述预设编码器包括依次连接的第一LN归一化层、第一多头自注意力机制、第一IN归一化层、第一FFN层、第二IN归一化层；相应的，所述利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果，包括：基于所述第一LN归一化层对所述目标图像特征图中的所有目标图像特征进行归一化处理，以得到归一化目标图像特征；利用所述第一多头自注意力机制和所述第一IN归一化层对所述归一化目标图像特征进行特征计算并归一化处理，以得到归一化目标图像特征之间的关系；利用所述第一FFN层和所述第二IN归一化层对所述归一化目标图像特征之间的关系进行处理，以得到相应的图像特征图编码结果。5.根据权利要求4所述的图像描述方法，其特征在于，所述利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果，包括：基于预设编码次数针对所述目标图像特征图进行多次编码，以生成相应的图像特征图编码结果。6....

【专利技术属性】
技术研发人员：周涛，邵蒙悦，吴婕，李天鹏，庄林志，吴吉灵，
申请(专利权)人：济南博观智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人