一种数据处理方法、设备以及计算机可读存储介质技术

技术编号:37138964 阅读:17 留言:0更新日期:2023-04-06 21:41
本申请公开了一种数据处理方法、设备以及计算机可读存储介质,该方法包括:获取类别标签集合中每个类别标签分别对应的标签词向量,获取图像对应的图像属性初始特征,以及图像对应的图像语义初始特征;对标签词向量矩阵以及图像属性初始特征进行特征融合,得到图像属性特征,对图像属性特征进行自注意力增强,得到图像属性增强特征;对图像属性特征以及图像语义初始特征进行特征融合,得到图像语义增强特征;根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征,在类别标签集合中确定图像的目标类别标签。采用本申请,可以提高图像的目标类别标签的识别准确度。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。各种场景。各种场景。

【技术实现步骤摘要】
一种数据处理方法、设备以及计算机可读存储介质


[0001]本申请涉及互联网
,尤其涉及一种数据处理方法、设备以及计算机可读存储介质。

技术介绍

[0002]在图像识别场景、图像分类场景、图像推荐场景、视频属性识别场景等业务场景下,确定图像或视频帧的目标类别标签(即识别图像或视频帧的类别)是至关重要的。
[0003]已有的图像类别标签确定方法,大都是基于图像的属性特征(例如风格属性、颜色属性等)的先验信息以进行模型的监督训练,并选取模型的中间层特征作为图像的表征特征,根据该表征特征确定图像的目标类别标签,但该表征特征仅限于图像本身的属性信息,可能无法准确地表征图像的整体内容或整体信息,而在图像内容表征不准确的情况下,会降低对图像的目标类别标签的识别准确度。

技术实现思路

[0004]本申请实施例提供一种数据处理方法、设备以及计算机可读存储介质,可以提高图像的目标类别标签的识别准确度。
[0005]本申请实施例一方面提供了一种数据处理方法,包括:
[0006]获取类别标签集合中每个类别标签分别对应的标签词向量,获取图像对应的图像属性初始特征,以及图像对应的图像语义初始特征;
[0007]对标签词向量矩阵以及图像属性初始特征进行特征融合,得到图像属性特征,对图像属性特征进行自注意力增强,得到图像属性增强特征;标签词向量矩阵是基于每个类别标签分别对应的标签词向量所生成的;
[0008]对图像属性特征以及图像语义初始特征进行特征融合,得到图像语义增强特征;
[0009]根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征,在类别标签集合中确定图像的目标类别标签。
[0010]本申请实施例一方面提供了一种数据处理装置,包括:
[0011]获取数据模块,用于获取类别标签集合中每个类别标签分别对应的标签词向量,获取图像对应的图像属性初始特征,以及图像对应的图像语义初始特征;
[0012]第一融合模块,用于对标签词向量矩阵以及图像属性初始特征进行特征融合,得到图像属性特征,对图像属性特征进行自注意力增强,得到图像属性增强特征;标签词向量矩阵是基于每个类别标签分别对应的标签词向量所生成的;
[0013]第二融合模块,用于对图像属性特征以及图像语义初始特征进行特征融合,得到图像语义增强特征;
[0014]确定标签模块,用于根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征,在类别标签集合中确定图像的目标类别标签。
[0015]其中,第一融合模块,包括:
[0016]第一获取单元,用于获取图像识别模型,将标签词向量矩阵以及图像属性初始特征分别输入至图像识别模型;图像识别模型包括跨模态融合网络层,跨模态融合网络层包括跨模态交叉注意力融合组件以及特征加权组件;
[0017]第一融合单元,用于通过跨模态交叉注意力融合组件,对标签词向量矩阵以及图像属性初始特征进行特征融合,得到与标签词向量矩阵相关联的跨模态关联矩阵;
[0018]第一加权单元,用于将跨模态关联矩阵以及图像属性初始特征分别输入至特征加权组件;
[0019]第一加权单元,还用于在特征加权组件中,根据跨模态关联矩阵对图像属性初始特征进行特征加权,得到图像属性特征。
[0020]其中,跨模态交叉注意力融合组件包括全连接层子组件、特征点积子组件、矩阵缩放子组件以及矩阵归一化子组件;
[0021]第一融合单元,包括:
[0022]第一变换子单元,用于通过全连接层子组件,对图像属性初始特征进行特征变换,得到待融合图像属性特征;
[0023]第一输入子单元,用于将待融合图像属性特征以及标签词向量矩阵分别输入至特征点积子组件;
[0024]第一输入子单元,还用于通过特征点积子组件,对待融合图像属性特征以及标签词向量矩阵进行特征点积,得到待缩放跨模态关联矩阵;
[0025]第二输入子单元,用于将待缩放跨模态关联矩阵输入至矩阵缩放子组件,通过矩阵缩放子组件,对待缩放跨模态关联矩阵进行特征缩放,得到待归一化跨模态关联矩阵;
[0026]第一生成子单元,用于将待归一化跨模态关联矩阵输入至矩阵归一化子组件,通过矩阵归一化子组件,对待归一化跨模态关联矩阵进行特征归一化,得到与标签词向量矩阵相关联的跨模态关联矩阵。
[0027]其中,特征加权组件包括全连接层子组件、加权权重子组件、加权归一化子组件以及属性加权子组件;
[0028]第一加权单元,包括:
[0029]第二变换子单元,用于通过全连接层子组件,对图像属性初始特征进行特征变换,得到待融合图像属性特征;
[0030]第二生成子单元,用于通过加权权重子组件,对跨模态关联矩阵以及标签词向量矩阵进行特征乘积,得到针对待融合图像属性特征的待归一化加权权重;
[0031]第三输入子单元,用于将待归一化加权权重输入至加权归一化子组件,通过加权归一化子组件,对待归一化加权权重进行权重归一化,得到针对待融合图像属性特征的特征加权权重;
[0032]第四输入子单元,用于将特征加权权重以及待融合图像属性特征分别输入至属性加权子组件;
[0033]第四输入子单元,还用于在属性加权子组件中,基于特征加权权重对待融合图像属性特征进行特征加权,得到图像属性特征。
[0034]其中,跨模态融合网络层还包括跨模态自注意力增强组件,跨模态自注意力增强组件包括第一全连接层子组件、第二全连接层子组件、第三全连接层子组件以及跨模态自
注意力增强子组件;
[0035]第一融合模块,包括:
[0036]第一输入单元,用于将图像属性特征输入至第一全连接层子组件,通过第一全连接层子组件对图像属性特征进行特征变换,得到第一待融合图像属性特征:
[0037]第二输入单元,用于将图像属性特征输入至第二全连接层子组件,通过第二全连接层子组件对图像属性特征进行特征变换,得到第二待融合图像属性特征;
[0038]第三输入单元,用于将图像属性特征输入至第三全连接层子组件,通过第三全连接层子组件对图像属性特征进行特征变换,得到待增强图像属性特征;
[0039]第一增强单元,用于将第一待融合图像属性特征、第二待融合图像属性特征以及待增强图像属性特征分别输入至跨模态自注意力增强子组件;
[0040]第一增强单元,还用于在跨模态自注意力增强子组件中,通过第一待融合图像属性特征以及第二待融合图像属性特征,对待增强图像属性特征进行特征增强,得到图像属性增强特征。
[0041]其中,跨模态自注意力增强子组件包括第一特征转置子组件、第一增强权重子组件、第一增强缩放子组件、第一增强归一化子组件以及属性增强子组件;
[0042]第一增强单元,包括:
[0043]第三生成子单元,用于通过第一特征转置子组件,对第二待融合图像属性特征进行特征转置,得到第二待融合图像属性特征对应的转置图像属性特征;
[0044]第四本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取类别标签集合中每个类别标签分别对应的标签词向量,获取图像对应的图像属性初始特征,以及所述图像对应的图像语义初始特征;对标签词向量矩阵以及所述图像属性初始特征进行特征融合,得到图像属性特征,对所述图像属性特征进行自注意力增强,得到图像属性增强特征;所述标签词向量矩阵是基于所述每个类别标签分别对应的标签词向量所生成的;对所述图像属性特征以及所述图像语义初始特征进行特征融合,得到图像语义增强特征;根据所述标签词向量矩阵、所述图像语义增强特征以及所述图像属性增强特征,在所述类别标签集合中确定所述图像的目标类别标签。2.根据权利要求1所述的方法,其特征在于,所述对标签词向量矩阵以及所述图像属性初始特征进行特征融合,得到图像属性特征,包括:获取图像识别模型,将所述标签词向量矩阵以及所述图像属性初始特征分别输入至所述图像识别模型;所述图像识别模型包括跨模态融合网络层,所述跨模态融合网络层包括跨模态交叉注意力融合组件以及特征加权组件;通过所述跨模态交叉注意力融合组件,对所述标签词向量矩阵以及所述图像属性初始特征进行特征融合,得到与所述标签词向量矩阵相关联的跨模态关联矩阵;将所述跨模态关联矩阵以及所述图像属性初始特征分别输入至所述特征加权组件;在所述特征加权组件中,根据所述跨模态关联矩阵对所述图像属性初始特征进行特征加权,得到所述图像属性特征。3.根据权利要求2所述的方法,其特征在于,所述跨模态交叉注意力融合组件包括全连接层子组件、特征点积子组件、矩阵缩放子组件以及矩阵归一化子组件;所述通过所述跨模态交叉注意力融合组件,对所述标签词向量矩阵以及所述图像属性初始特征进行特征融合,得到与所述标签词向量矩阵相关联的跨模态关联矩阵,包括:通过所述全连接层子组件,对所述图像属性初始特征进行特征变换,得到待融合图像属性特征;将所述待融合图像属性特征以及所述标签词向量矩阵分别输入至所述特征点积子组件;通过所述特征点积子组件,对所述待融合图像属性特征以及所述标签词向量矩阵进行特征点积,得到待缩放跨模态关联矩阵;将所述待缩放跨模态关联矩阵输入至所述矩阵缩放子组件,通过所述矩阵缩放子组件,对所述待缩放跨模态关联矩阵进行特征缩放,得到待归一化跨模态关联矩阵;将所述待归一化跨模态关联矩阵输入至所述矩阵归一化子组件,通过所述矩阵归一化子组件,对所述待归一化跨模态关联矩阵进行特征归一化,得到与所述标签词向量矩阵相关联的所述跨模态关联矩阵。4.根据权利要求2所述的方法,其特征在于,所述特征加权组件包括全连接层子组件、加权权重子组件、加权归一化子组件以及属性加权子组件;所述在所述特征加权组件中,根据所述跨模态关联矩阵对所述图像属性初始特征进行特征加权,得到所述图像属性特征,包括:
通过所述全连接层子组件,对所述图像属性初始特征进行特征变换,得到待融合图像属性特征;通过所述加权权重子组件,对所述跨模态关联矩阵以及所述标签词向量矩阵进行特征乘积,得到针对所述待融合图像属性特征的待归一化加权权重;将所述待归一化加权权重输入至所述加权归一化子组件,通过所述加权归一化子组件,对所述待归一化加权权重进行权重归一化,得到针对所述待融合图像属性特征的特征加权权重;将所述特征加权权重以及所述待融合图像属性特征分别输入至所述属性加权子组件;在所述属性加权子组件中,基于所述特征加权权重对所述待融合图像属性特征进行特征加权,得到所述图像属性特征。5.根据权利要求2所述的方法,其特征在于,所述跨模态融合网络层还包括跨模态自注意力增强组件,所述跨模态自注意力增强组件包括第一全连接层子组件、第二全连接层子组件、第三全连接层子组件以及跨模态自注意力增强子组件;所述对所述图像属性特征进行自注意力增强,得到图像属性增强特征,包括:将所述图像属性特征输入至所述第一全连接层子组件,通过所述第一全连接层子组件对所述图像属性特征进行特征变换,得到第一待融合图像属性特征;将所述图像属性特征输入至所述第二全连接层子组件,通过所述第二全连接层子组件对所述图像属性特征进行特征变换,得到第二待融合图像属性特征;将所述图像属性特征输入至所述第三全连接层子组件,通过所述第三全连接层子组件对所述图像属性特征进行特征变换,得到待增强图像属性特征;将所述第一待融合图像属性特征、所述第二待融合图像属性特征以及所述待增强图像属性特征分别输入至所述跨模态自注意力增强子组件;在所述跨模态自注意力增强子组件中,通过所述第一待融合图像属性特征以及所述第二待融合图像属性特征,对所述待增强图像属性特征进行特征增强,得到所述图像属性增强特征。6.根据权利要求5所述的方法,其特征在于,所述跨模态自注意力增强子组件包括第一特征转置子组件、第一增强权重子组件、第一增强缩放子组件、第一增强归一化子组件以及属性增强子组件;所述在所述跨模态自注意力增强子组件中,通过所述第一待融合图像属性特征以及所述第二待融合图像属性特征,对所述待增强图像属性特征进行特征增强,得到所述图像属性增强特征,包括:通过所述第一特征转置子组件,对所述第二待融合图像属性特征进行特征转置,得到所述第二待融合图像属性特征对应的转置图像属性特征;将所述转置图像属性特征以及所述第一待融合图像属性特征分别输入至所述第一增强权重子组件;通过所述第一增强权重子组件,对所述第一待融合图像属性特征以及所述转置图像属性特征进行特征乘积,得到针对所述待增强图像属性特征的第一待缩放增强权重;将所述第一待缩放增强权重输入至所述第一增强缩放子组件,通过所述第一增强缩放子组件,对所述第一待缩放增强权重进行权重缩放,得到第一待归一化增强权重;
将所述第一待归一化增强权重输入至所述第一增强归一化子组件,通过所述第一增强归一化子组件,对所述第一待归一化增强权重进行权重归一化,得到第一特征增强权重;将所述第一特征增强权重以及所述待增强图像属性特征分别输入至所述属性增强子组件;在所述属性增强子组件中,基于所述第一特征增强权重对所述待增强图像属性特征进行特征增强,得到所述图像属性增强特征。7.根据权利要求2所述的方法,其特征在于,所述图像识别模型还包括模态内融合网络层,所述模态内融合网络层包括模态内自注意力增强组件、模态内交叉注意力融合组件以及特征融合组件;所述对所述图像属性特征以及所述图像语义初始特征进行特征融合,得到图像语义增强特征,包括:将所述图像语义初始特征输入至所述模态内自注意力增强组件,通过所述模态内自注意力增强组件,对所述图像语义初始特征进行特征增强,得到第一图像语义特征;将所述图像语义初始特征以及所述图像属性特征分别输入至所述模态内交叉注意力增强组件;通过所述模态内交叉注意力融合组件,对所述图像语义初始特征以及所述图像属性特征进行特征融合,得到第二图像语义特征;将所述第一图像语义特征以及所述第二图像语义特征分别输入至所述特征融合组件;通过所述特征融合组件,对所述第一图像语义特征以及所述第二图像语义特征进行特征融合,得到所述图像语义增强特征。8.根据权利要求7所述的方法,其特征在于,所述模态内自注意力增强组件包括第四全连接层子组件、第五全连接层子组件、第六全连接层子组件以及模态内自注意力增强子组件;所述通过所述模态内自注意力增强组件,对所述图像语义初始特征进行特征增强,得到第一图像语义特征,包括:通过所述第四全连接层子组件对所述图像语义初始特征进行特征变换,得到第一待融合图像语义特征;通过所述第五全连接层子组件对所述图像语义初始特征进行特征变换,得到第二待融合图像语义特征;通过所述第六全连接层子组件对所述图像语义初始特征进行特征变换,得到待增强图像语义特征;将所述第一待融合图像语义特征、所述第二待融合图像语义特征以及所述待增强图像语义特征分别输入至所述模态内自注意力增强子组件;在所述模态内自注意力增强子组件中,通过所述第一待融合图像语义特征以及所述第二待融合图像语义特征,对所述待增强图像语义特征进行特...

【专利技术属性】
技术研发人员:赵佳伟鄢科杜俊珑黄飞跃
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1