当前位置: 首页 > 专利查询>中山大学专利>正文

一种面向视觉文本交互的多模态数据融合方法及系统技术方案

技术编号:43845683 阅读:32 留言:0更新日期:2024-12-31 18:39
本发明专利技术公开了一种面向视觉文本交互的多模态数据融合方法及系统,其中,所述方法包括:对原始视频数据和原始文本数据进行预处理;基于时空图卷积模型对该原始视频数据进行视觉特征嵌入,获得视觉特征表示;基于BERT模型对该原始文本数据进行分层语义聚合处理,获得文本特征表示;基于交互关系矩阵利用视觉特征表示和文本特征表示生成聚合外观节点表示和聚合运动节点表示以生成目标视觉表示;对目标视觉表示和文本特征表示进行融合,获得视觉文本联合表示,并基于视觉文本联合表示执行视觉文本交互任务。本发明专利技术解决了现有的多模态数据融合技术中,语义融合层次浅和视觉文本交互简单的问题。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种面向视觉文本交互的多模态数据融合方法及系统


技术介绍

1、在当今信息化时代,数据已成为推动科技进步和社会发展的关键资源,随着传感器技术、通信技术和计算能力的飞速发展,可以收集和处理的数据类型和数量呈现出爆炸式增长。这些数据往往跨越了视觉、听觉、触觉等多个感官模态,形成了所谓的多模态数据。多模态数据融合指的是将来自不同模态的数据结合起来,以获得比单一模态数据更为丰富和全面的信息,不同模态的数据具有不同的特性和表达方式,这些数据在格式、尺度和表达上的差异,使得直接融合变得困难。

2、目前所应用的数据融合算法虽然在一定程度上取得了较好的成绩,但仍存在不足,传统基于transformer的多模态预训练模型,忽略了一些高层次的多模态语义特征,而且由于transformer模型只使用最顶层提取得到的特征进行预测识别,会忽略掉其他层的细节信息,使得低维度的特征无法成为模型推理的依据。transformer模型需要经过多层神经网络叠加,但是在网络较深时不仅会导致底层梯度消失,而且会使得位置编码模糊,使得多模态数据之间的特征本文档来自技高网...

【技术保护点】

1.一种面向视觉文本交互的多模态数据融合方法,其特征在于,所述方法包括:

2.根据权利要求1所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于时空图卷积模型对预处理后的原始视频数据进行视觉特征嵌入,获得视觉特征表示,包括:

3.根据权利要求2所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于所述运动特征表示和外观特征表示构建运动图和外观图,包括:

4.根据权利要求3所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述链接分数的表达式为:

5.根据权利要求1所述的面向视觉文本交互的多模态数据融合方法,其特征...

【技术特征摘要】

1.一种面向视觉文本交互的多模态数据融合方法,其特征在于,所述方法包括:

2.根据权利要求1所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于时空图卷积模型对预处理后的原始视频数据进行视觉特征嵌入,获得视觉特征表示,包括:

3.根据权利要求2所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于所述运动特征表示和外观特征表示构建运动图和外观图,包括:

4.根据权利要求3所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述链接分数的表达式为:

5.根据权利要求1所述的面向视觉文本交互的多模态数据融合方法,其特征在于,所述基于bert模型对预处理后的原始文本数据进行分层语义聚合处理,获得文本特征表示,包括:

6.根据权利要求5所述...

【专利技术属性】
技术研发人员:胡建国唐佳浩黄文俊潘家锴沈圣智何嘉骏
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1