【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种面向视觉文本交互的多模态数据融合方法及系统。
技术介绍
1、在当今信息化时代,数据已成为推动科技进步和社会发展的关键资源,随着传感器技术、通信技术和计算能力的飞速发展,可以收集和处理的数据类型和数量呈现出爆炸式增长。这些数据往往跨越了视觉、听觉、触觉等多个感官模态,形成了所谓的多模态数据。多模态数据融合指的是将来自不同模态的数据结合起来,以获得比单一模态数据更为丰富和全面的信息,不同模态的数据具有不同的特性和表达方式,这些数据在格式、尺度和表达上的差异,使得直接融合变得困难。
2、目前所应用的数据融合算法虽然在一定程度上取得了较好的成绩,但仍存在不足,传统基于transformer的多模态预训练模型,忽略了一些高层次的多模态语义特征,而且由于transformer模型只使用最顶层提取得到的特征进行预测识别,会忽略掉其他层的细节信息,使得低维度的特征无法成为模型推理的依据。transformer模型需要经过多层神经网络叠加,但是在网络较深时不仅会导致底层梯度消失,而且会使得位置编码模糊,使得
...【技术保护点】
1.一种面向视觉文本交互的多模态数据融合方法,其特征在于,所述方法包括:
2.根据权利要求1所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于时空图卷积模型对预处理后的原始视频数据进行视觉特征嵌入,获得视觉特征表示,包括:
3.根据权利要求2所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于所述运动特征表示和外观特征表示构建运动图和外观图,包括:
4.根据权利要求3所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述链接分数的表达式为:
5.根据权利要求1所述的面向视觉文本交互的多模态
...【技术特征摘要】
1.一种面向视觉文本交互的多模态数据融合方法,其特征在于,所述方法包括:
2.根据权利要求1所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于时空图卷积模型对预处理后的原始视频数据进行视觉特征嵌入,获得视觉特征表示,包括:
3.根据权利要求2所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于所述运动特征表示和外观特征表示构建运动图和外观图,包括:
4.根据权利要求3所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述链接分数的表达式为:
5.根据权利要求1所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于bert模型对预处理后的原始文本数据进行分层语义聚合处理,获得文本特征表示,包括:
6.根据权利要求5所述...
【专利技术属性】
技术研发人员:胡建国,唐佳浩,黄文俊,潘家锴,沈圣智,何嘉骏,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。