多尺度数据融合方法技术

技术编号:39593417 阅读:24 留言:0更新日期:2023-12-03 19:48
本公开涉及一种多尺度数据融合方法

【技术实现步骤摘要】
多尺度数据融合方法、装置、介质及电子设备


[0001]本公开涉及数据处理
,具体地,涉及一种多尺度数据融合方法

装置

介质及电子设备


技术介绍

[0002]多模态特征融合是指将来自不同模态
(
如图像

文本

音频等
)
的特征结合在一起,以获得更准确

更全面的信息表示

在多模态特征融合中,可以使用不同的特征融合方法将这些特征结合起来,比如加权融合

级联融合

交叉融合等

[0003]在实际应用中,多模态特征融合可以应用于例如语音识别

视觉问答

人脸识别

情感分析等任务

而现有的神经网络对多模态数据的融合的处理过程较复杂且输出结果的准确性较低


技术实现思路

[0004]为了实现相关技术中的技术问题,本公开提供一种多尺本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种多尺度数据融合方法,其特征在于,包括:获取多尺度的文本数据和多尺度的图像数据;将所述文本数据输入至文本特征提取网络,通过所述文本特征提取网络从不同深度提取特征,获得多尺度的单模态文本特征,以及,将所述图像数据输入至图像特征提取网络,通过所述图像特征提取网络从不同深度提取特征,获得多尺度的单模态图像特征;将从同一深度下提取的所述单模态文本特征和所述单模态图像特征输入至交叉注意力层,获得多尺度的融合特征;将所述多尺度的融合特征输入循环编码网络,获得多尺度通用特征编码,其中,所述循环编码网络包括多个堆叠的改进注意力块,所述多尺度通用特征编码被用于情感分析任务和
/
或视觉问答任务
。2.
根据权利要求1所述的方法,其特征在于,所述改进注意力块被配置为:对所述改进注意力块的输入张量计算第一权重张量和第一值张量,并根据所述第一权重张量和所述第一值张量,得到输出结果,其中,所述第一权重张量和所述第一值张量通过可学习的随机参数矩阵与所述输入张量相乘得到;将所述多尺度的融合特征输入循环编码网络,获得多尺度通用特征编码,包括:将所述多尺度的融合特征输入循环编码网络,获得每一所述改进注意力块的所述输出结果,并根据每一所述改进注意力块的所述输出结果,得到多尺度通用特征编码
。3.
根据权利要求2所述的方法,其特征在于,所述改进注意力块被配置为通过如下计算式根据所述第一权重张量和所述第一值张量,得到输出结果:
W

W1XV

W2X
其中,
MAtten(W,V)
为所述改进注意力块的输出结果,
softmax()

softmax
函数,
W
为所述第一权重张量,
V
为所述第一值张量,
W1和
W2为可学习的随机参数矩阵,
X
为所述输入张量,
d
W

W
的维度数
。4.
根据权利要求1‑3任一所述的方法,其特征在于,所述多尺度的融合特征包括三个尺度,所述循环编码网络包括三组改进注意力网络,每一组改进注意力网络包括六层堆叠的所述改进注意力块,以输入数据在所述循环编码网络的数据处理流向为顺序,相邻两组改进注意力网络中第一层改进注意力块的输入端之间以及第六层改进注意力块的输出端之间相互连接,且前一组改进注意力网络的第四层改进注意力块的输出端与后一组改进注意力网络的第三层改进注意力块的输出端连接;将所述多尺度的融合特征输入循环编码网络,获得多尺度通用特征编码,包括:将第一尺度的融合特征输入至第一组改进注意力网络的第一层改进注意力块的输入端,将第二尺度的融合特征输入至第一组改进注意力网络的第四层改进注意力块的输入端,以及将第三尺度的融合特征输入至第一组改进注意力网络的第六层改进注意力块的输出端,通过所述循环编码网络进行循环处理,获得所述多尺度通用特征编码
。5.
根据权利要求1‑3任一所述的方法,其特征在于,所述将从同一深度下提取的所述单
模态文本特征和所述单模态图像特征输入至交叉注意力层,获得多尺度的融合...

【专利技术属性】
技术研发人员:林庆治周明振
申请(专利权)人:前海飞算云创数据科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1