图像描述文本的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39041132 阅读:9 留言:0更新日期:2023-10-10 11:54
本公开提供了一种图像描述文本的生成方法,包括:对目标图像的网格特征进行处理,构建关于目标图像的多个伪区域特征,其中伪区域特征用于表征目标图像的局部视觉信息;分别对网格特征和伪区域特征进行编码增强处理,获得融合有多层图像编码结果的网格增强特征和融合有多层局部编码结果的伪区域增强特征;以及对网格增强特征和伪区域增强特征进行语义解析,生成用于表征目标图像中视觉信息的图像描述文本。本公开还提供了一种图像描述文本的生成装置、电子设备及存储介质。电子设备及存储介质。电子设备及存储介质。

【技术实现步骤摘要】
图像描述文本的生成方法、装置、电子设备及存储介质


[0001]本公开涉及计算机科学
,特别涉及一种图像描述文本的生成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着多媒体技术和计算机网络的快速发展,数据的多模态性日显突出,数据量爆发式增值,学术界和企业界对多模态数据的处理需求也日益迫切。另一方面,深度学习技术的日益成熟,给处理多模态数据提供了强有力的技术支持。随着大数据时代的到来,每时每刻都会产生海量的图像数据,例如手机拍照产生的照片、监控摄像头拍摄的监控图像等。但是,对于图像数据的利用率却处于走低的趋势。因此,如何应用这些不断增长的图像数据自动构建基于人类语言的描述文本,例如基于图像数据生成图像字幕、图像检索等,成为了亟待解决的问题。
[0003]在相关技术中,对图像描述的方法通常采用目标检测器提取的区域特征作为视觉表示。由于检测器是在大规模视觉基因组数据集上进行预训练的,因此它可以对图像中的显著区域生成判别表示,并为描述提供完整的目标信息。区域特征是从图像的显著区域提取的,其具有明显的缺陷,例如区域特征往往忽略了背景中的上下文信息。在此情况下,训练所得的模型难以捕捉对象之间的关系;并且,区域特征在提取时,耗时较长。此外,预训练的目标检测器可能产生噪声、重叠或者错误检测,最终限制了文本构建模型的性能上限。
[0004]图像数据的网格特征在构建描述文本时也取得了令人印象深刻的性能,然而,以一种平坦的方式直接操作网格特征,不可避免地会破坏网格之间的空间关联。若将图像数据的区域特征和网格特征结合起来作为视觉输入,又会提升模型的计算成本;二者融合过程复杂;并且,会出现冗余噪声等问题。

技术实现思路

[0005]为了解决上述技术问题中的至少一个,本公开提供了一种图像描述文本的生成方法、装置、电子设备及存储介质。
[0006]根据本公开的一个方面提出了一种图像描述文本的生成方法,包括:对目标图像的网格特征进行处理,构建关于所述目标图像的多个伪区域特征,其中所述伪区域特征用于表征所述目标图像的局部视觉信息;分别对所述网格特征和所述伪区域特征进行编码增强处理,获得融合有多层图像编码结果的网格增强特征和融合有多层局部编码结果的伪区域增强特征;以及对所述网格增强特征和所述伪区域增强特征进行语义解析,生成用于表征所述目标图像中视觉信息的图像描述文本。
[0007]在一些实施方式中,所述对目标图像的网格特征进行处理,构建关于所述目标图像的多个伪区域特征,包括:预先设定多种特征聚类;计算各个所述网格特征与所述特征聚类之间的相似度,以将各个所述网格特征分别映射至与自身相似度最高的特征聚类中,其中处于同一所述特征聚类的网格特征表征同一视觉信息;以及对同一所述特征聚类中的多
个所述网格特征进行归一化处理,以获得用于表征各个所述特征聚类的多个伪区域特征。
[0008]在一些实施方式中,所述分别对所述网格特征和所述伪区域特征进行编码增强处理,获得融合有多层图像编码结果的网格增强特征和融合有多层局部编码结果的伪区域增强特征,包括:调用网格编码器对所述网格特征进行编码,获得所述网格编码器中各编码层生成的层级特征以及所述网格编码器输出的初始网格特征;将所述网格编码器中各编码层生成的层级特征进行连接,构建多层网格特征;以及将所述初始网格特征和所述多层网格特征按照比例融合,以构建所述网格增强特征。
[0009]在一些实施方式中,所述分别对所述网格特征和所述伪区域特征进行编码增强处理,获得融合有多层图像编码结果的网格增强特征和融合有多层局部编码结果的伪区域增强特征,包括:调用伪区域编码器对所述伪区域特征进行编码,获得所述伪区域编码器中各编码层生成的层级特征以及所述伪区域编码器输出的初始伪区域特征;将所述伪区域编码器中各编码层生成的层级特征进行连接,构建多层伪区域特征;以及将所述初始伪区域特征和所述多层伪区域特征按照比例融合,以构建所述伪区域增强特征。
[0010]在一些实施方式中,所述对所述网格增强特征和所述伪区域增强特征进行语义解析,生成用于表征所述目标图像中视觉信息的图像描述文本,包括:将所述网格增强特征和所述伪区域增强特征连接,生成特征字符串;以及调用文本解码器对所述特征字符串和所述目标图像的图像注释进行解析,获得对应于所述特征字符串的所述图像描述文本,其中所述图像描述文本用于表征所述目标图像中的视觉信息。
[0011]在一些实施方式中,在所述对目标图像的网格特征进行处理,构建关于所述目标图像的多个伪区域特征之前,包括:在所述目标图像的初始网格特征上增加位置编码,以获得用于描述所述目标图像的空间结构关系的所述网格特征。
[0012]在一些实施方式中,在所述对目标图像的网格特征进行处理,构建关于所述目标图像的多个伪区域特征之前,包括:构建用于根据所述目标图像生成所述图像描述文本的生成模型。
[0013]根据本公开的另一个方面提出了一种图像描述文本的生成模型,包括:空间特征感知模块,用于对目标图像的网格特征进行处理,构建关于所述目标图像的多个伪区域特征,其中所述伪区域特征用于表征所述目标图像的局部视觉信息;特征增强模块,用于分别对所述网格特征和所述伪区域特征进行编码增强处理,获得融合有多层图像编码结果的网格增强特征和融合有多层局部编码结果的伪区域增强特征;以及文本解码器,用于对所述网格增强特征和所述伪区域增强特征进行语义解析,生成用于表征所述目标图像中视觉信息的图像描述文本。
[0014]根据本公开的又一个方面提出了一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一实施方式所述的图像描述文本的生成方法。
[0015]根据本公开的再一个方面提出了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一实施方式所述的图像描述文本的生成方法。
附图说明
[0016]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0017]图1为本公开示例性实施方式的图像描述文本的生成方法流程图。
[0018]图2为本公开示例性实施方式的图像描述文本的生成方法架构图。
[0019]图3为本公开示例性实施方式的图像描述文本的生成模型架构图。
[0020]图4为本公开示例性实施方式的多尺度位置感知编码器示意图。
[0021]图5为本公开示例性实施方式的空间特征感知模块执行示意图。
[0022]图6为本公开示例性实施方式的解码器端结构示意图。以及
[0023]图7为本公开示例性实施方式的图像描述文本的生成装置框图。
具体实施方式
[0024]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像描述文本的生成方法,其特征在于,包括:对目标图像的网格特征进行处理,构建关于所述目标图像的多个伪区域特征,其中所述伪区域特征用于表征所述目标图像的局部视觉信息;分别对所述网格特征和所述伪区域特征进行编码增强处理,获得融合有多层图像编码结果的网格增强特征和融合有多层局部编码结果的伪区域增强特征;以及对所述网格增强特征和所述伪区域增强特征进行语义解析,生成用于表征所述目标图像中视觉信息的图像描述文本。2.根据权利要求1所述的图像描述文本的生成方法,其特征在于,所述对目标图像的网格特征进行处理,构建关于所述目标图像的多个伪区域特征,包括:预先设定多种特征聚类;计算各个所述网格特征与所述特征聚类之间的相似度,以将各个所述网格特征分别映射至与自身相似度最高的特征聚类中,其中处于同一所述特征聚类的网格特征表征同一视觉信息;以及对同一所述特征聚类中的多个所述网格特征进行归一化处理,以获得用于表征各个所述特征聚类的多个伪区域特征。3.根据权利要求1所述的图像描述文本的生成方法,其特征在于,所述分别对所述网格特征和所述伪区域特征进行编码增强处理,获得融合有多层图像编码结果的网格增强特征和融合有多层局部编码结果的伪区域增强特征,包括:调用网格编码器对所述网格特征进行编码,获得所述网格编码器中各编码层生成的层级特征以及所述网格编码器输出的初始网格特征;将所述网格编码器中各编码层生成的层级特征进行连接,构建多层网格特征;以及将所述初始网格特征和所述多层网格特征按照比例融合,以构建所述网格增强特征。4.根据权利要求1或3所述的图像描述文本的生成方法,其特征在于,所述分别对所述网格特征和所述伪区域特征进行编码增强处理,获得融合有多层图像编码结果的网格增强特征和融合有多层局部编码结果的伪区域增强特征,包括:调用伪区域编码器对所述伪区域特征进行编码,获得所述伪区域编码器中各编码层生成的层级特征以及所述伪区域编码器输出的初始伪区域特征;将所述伪区域编码器中各编码层生成的层级特征进行连接,构建多层伪区域特征;以及将所述初始伪区域特征和...

【专利技术属性】
技术研发人员:孔任龙曲寒冰王鑫轩朱成博阎刚
申请(专利权)人:北京市新技术应用研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1