一种图像的文本描述信息生成方法技术

技术编号:39405258 阅读:12 留言:0更新日期:2023-11-19 15:57
本申请公开了一种图像的文本描述信息生成方法,该图像的文本描述信息生成方法包括获取目标图像的图像特征、目标图像中目标物体的物体特征以及目标图像中目标区域的区域特征,目标区域基于目标图像中的目标物体确定;基于自适应注意机制对目标图像的图像特征进行处理,得到目标图像的全局表示;对目标物体的物体特征以及目标区域的区域特征进行局部感知处理,得到目标图像的局部表示;基于全局表示和局部表示进行解码处理,得到目标图像的目标文本描述信息。上述方案,能够提高文本描述信息生成的准确性。息生成的准确性。息生成的准确性。

【技术实现步骤摘要】
一种图像的文本描述信息生成方法


[0001]本申请涉及计算机视觉与图像处理
,特别是涉及一种图像的文本描述信息生成方法。

技术介绍

[0002]图像的文本描述信息生成作为计算机视觉领域受到广泛关注的技术,生成有意义并具有个性化的描述文本不仅需要算法能够识别图像中包含的对象,还需要获得这些对象之间的关系,而且还要用合理的语言表达出来。
[0003]目前,通过识别图像中的对象,并根据图像特征和对象特征确定图像的文本描述信息,导致所生成的文本描述信息无法关注到图像中的准确信息,进而导致生成的文本描述信息准确率低下的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种图像的文本描述信息生成方法,能够提高文本描述信息的准确性。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种图像的文本描述信息生成方法,所述方法包括:获取目标图像的图像特征、所述目标图像中目标物体的物体特征以及所述目标图像中目标区域的区域特征,所述目标区域基于所述目标图像中的目标物体确定;基于自适应注意机制对所述目标图像的图像特征进行处理,得到所述目标图像的全局表示;对所述目标物体的物体特征以及所述目标区域的区域特征进行局部感知处理,得到所述目标图像的局部表示;基于所述全局表示和所述局部表示进行解码处理,得到所述目标图像的目标文本描述信息。
[0006]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种图像的文本描述信息生成装置,包括:获取模块,用于获取目标图像的图像特征、所述目标图像中目标物体的物体特征以及所述目标图像中目标区域的区域特征;全局处理模块,用于基于自适应注意机制对所述目标图像的图像特征进行处理,得到所述目标图像的全局表示;局部处理模块,用于对所述目标物体的物体特征以及所述目标区域的区域特征进行局部感知处理,得到所述目标图像的局部表示;解码处理模块,用于基于所述全局表示和所述局部表示进行解码处理,得到所述目标图像的目标文本描述信息。
[0007]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,包括存储器和处理器,所述存储器存储有程序指令,所述处理器从所述存储器调取所述程序指令以执行上述的图像的文本描述信息生成方法。
[0008]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质包括储存有程序数据,所述程序数据被处理器执行时用于实现上述的图像的文本描述信息生成方法。
[0009]本申请的有益效果是:基于自适应注意机制对获取的目标图像的图像特征进行处
理,得到目标图像的全局表示,并对获取的目标物体的物体特征以及获取的目标区域的区域特征进行局部感知处理,得到目标图像的局部表示,之后,基于全局表示和局部表示进行解码处理,得到目标图像的目标文本描述信息。由此结合目标图像的图像特征、目标图像中目标物体的物体特征以及目标图像中目标区域的区域特征生成更具个性化的文本描述信息,进而提高文本描述信息生成的准确性。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本申请示出的图像的文本描述信息生成方法的一示例性实施例的流程示意图;
[0012]图2是图1示出的图像的文本描述信息生成方法中步骤S110的一示例性实施例的流程示意图;
[0013]图3是图1示出的图像的文本描述信息生成方法中步骤S120的一示例性实施例的流程示意图;
[0014]图4是图1示出的图像的文本描述信息生成方法中步骤S130的一示例性实施例的流程示意图;
[0015]图5是本申请示出的图像的文本描述信息生成方法的一应用场景的流程示意图;
[0016]图6是本申请示出的图像的文本描述信息生成装置一实施例的结构示意图;
[0017]图7是本申请电子设备一实施例的结构示意图;
[0018]图8是本申请计算机存储介质一实施例的结构示意图。
具体实施方式
[0019]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0020]首先需要说明的是,图像信息的获取对生成准确的文本描述信息有重要影响,当获取图像中的对象不全面或者对象之间的关系不准确,都会导致所生成的文本描述信息与图像实际所反映的信息有误差,以及准确率低的问题,基于此,本申请实施例通过结合目标图像的图像特征、目标图像中目标物体的物体特征以及目标图像中目标区域的区域特征生成更具个性化的文本描述信息,进而提高文本描述信息的准确性。
[0021]参阅图1,图1是本申请示出的图像的文本描述信息生成方法的一示例性实施例的流程示意图。具体而言,可以包括如下步骤:
[0022]S110:获取目标图像的图像特征、目标图像中目标物体的物体特征以及目标图像中目标区域的区域特征,目标区域基于目标图像中的目标物体确定。
[0023]在本申请实施例,目标图像是从图像集合中选取的一张图像。示例性的,可以是图
像集合中的任一图像,也可以是图像集合中图像质量最优的图像,本申请实施例对此不进行限定。需要说明的是,图像集合可以表示为I={i1,i2,...,i
N
},则目标图像可以表示为图像集合中的第j张图像,表示为i
j

[0024]目标图像中目标物体是指目标图像中的物体实例或感兴趣区域,例如目标物体可以是动物、车辆或者人等。示例性的,可以通过目标检测算法检测目标图像中的目标物体,其中,目标检测算法可以为YOLO

V5,YOLO

V4,YOLO

V7,PP

YOLOv2中的一种,以用于从图像或视频中准确地识别和定位多个目标物体。
[0025]目标区域也即眼动感知区域,具体是基于目标图像中存在眼动信号注视的区域与目标物体结合得到的。
[0026]图像特征、物体特征以及区域特征可以通过对目标图像、目标图像中的目标物体以及目标图像中的目标区域进行特征提取得到。示例性的,可以通过特征提取网络对目标图像、目标图像中的目标物体以及目标图像中的目标区域进行特征提取。其中,特征提取网络可以是VGG16,VGG16是一种具有深度且简单的卷积神经网络架构,由多个卷积层和池化层组成。作为一示例的,若将第j张目标图像、第j张目标图像中的目标物体以及第j张目标图像中的目标区域输入VGG16中,则第j张目标图像的图像特征可表示为FI
j
=VGG16(i<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像的文本描述信息生成方法,其特征在于,所述方法包括:获取目标图像的图像特征、所述目标图像中目标物体的物体特征以及所述目标图像中目标区域的区域特征,所述目标区域基于所述目标图像中的目标物体确定;基于自适应注意机制对所述目标图像的图像特征进行处理,得到所述目标图像的全局表示;对所述目标物体的物体特征以及所述目标区域的区域特征进行局部感知处理,得到所述目标图像的局部表示;基于所述全局表示和所述局部表示进行解码处理,得到所述目标图像的目标文本描述信息。2.根据权利要求1所述的图像的文本描述信息生成方法,其特征在于,所述基于自适应注意机制对所述目标图像的图像特征进行处理,得到所述目标图像的全局表示的步骤,包括:对所述目标图像的图像特征进行平均池化和最大池化处理,得到空间注意参数;基于所述空间注意参数和获取的时间注意参数确定自适应注意参数,所述时间注意参数基于所述目标图像中各像素点的注视时间确定的;基于所述自适应注意参数和所述目标图像的图像特征确定所述目标图像的全局表示。3.根据权利要求2所述的图像的文本描述信息生成方法,其特征在于,所述基于所述自适应注意参数和所述目标图像的图像特征确定所述目标图像的全局表示的步骤,包括:将所述自适应注意参数和所述目标图像的图像特征之积作为特征结合表示;对所述特征结合表示和所述目标图像的图像特征进行异或计算,得到异或运算后的特征表示;对所述异或运算后的特征表示进行降维处理,得到所述目标图像的全局表示。4.根据权利要求1所述的图像的文本描述信息生成方法,其特征在于,所述对所述目标物体的物体特征以及所述目标区域的区域特征进行局部感知处理,得到所述目标图像的局部表示的步骤,包括:对所述目标物体的物体特征和所述目标区域的区域特征进行拼接,得到所述目标图像中的顶点以及所述顶点的顶点特征;计算所述目标图像中目标顶点对应的目标物体的物体特征与其它顶点对应的目标物体的物体特征之间的第一余弦相似度,所述其它顶点为以所述目标顶点为中心的预设范围内的顶点;计算所述目标顶点对应的目标区域的区域特征与所述其它顶点对应的目标区域的区域特征之间的第二余弦相似度;基于所述第一余弦相似度、所述第二余弦相似度、所述目标顶点的顶点特征以及所述其它顶点的顶点特征确定所述目标图像的局部表示。5.根据权利要求4所述的图像的文本描述信息生成方法,其特征在于,所述基于所述第一余弦相似度、所述第二余弦相似度、所述目标顶点的顶点特征以及所述其它顶点的顶点特征确定所述目标图像的局部表示的步骤,包括:将所述第...

【专利技术属性】
技术研发人员:徐睿峰王冰冰梁斌巫继鹏杨敏
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1