一种基于多模态信息融合的在线视频视觉关系检测方法技术

技术编号:37303118 阅读:45 留言:0更新日期:2023-04-21 22:48
本发明专利技术涉及人工智能理解和环境交互技术领域,具体涉及一种基于多模态信息融合的在线视频视觉关系检测方法。本发明专利技术提出了ASE

【技术实现步骤摘要】
一种基于多模态信息融合的在线视频视觉关系检测方法


[0001]本专利技术涉及人工智能理解和环境交互
,具体涉及一种基于多模态信息融合的在线视频视觉关系检测方法。

技术介绍

[0002]随着计算机视觉识别和自然语言处理技术的进步,视频视觉关系检测任务逐渐成为研究热点。在线视频视觉关系检测任务视觉关系检测的目的是检测视频中物体之间的相互作用,是人工智能理解和与环境交互的基础。
[0003]视频视觉关系检测(VidVRD)方法中常用的多模信息包括视觉外观线索,空间位置线索和语义嵌入线索。目前,视频视觉关系检测在处理多模信息时主要采用了特征级融合方法,少数采用决策级融合方法。然而,关注重点多为某一种特征信息的获取,而缺少对多模信息融合方法的探索,只是将对象对和谓词的特征拼接在一起,没有充分探究对象对和谓词之间潜在的关联,而且将多模特征直接拼接的方法没有充分利用多模信息之间的互补,导致视觉关系表示的表达能力弱,视频视觉关系检测准确率低。

技术实现思路

[0004]本专利技术的技术解决问题是:克服现有技术的不足,提出一种基于多模态信息融合的在线视频视觉关系检测方法。
[0005]本专利技术的技术解决方案是:
[0006]一种基于多模态信息融合的在线视频视觉关系检测方法,该方法的步骤包括:
[0007]步骤1,构建分层多模融合网络,所构建的分层多模融合网络中包括两层ASE

GCN层、分层多模融合模块、YOLO目标检测器和语义嵌入层,分层多模融合模块包括第一层的基于注意力的融合模块和第二层的三线性池化融合模块;
[0008]步骤2,将在线视频数据输入到步骤1构建的分层多模融合网络中;
[0009]步骤3,步骤2中输入到分层多模融合网络中的在线视频数据通过深度神经网络提取每个对象的初始视觉特征,并将提取的每个对象的初始视觉特征输入到两层ASE

GCN层,得到视觉外观线索;
[0010]步骤4,将步骤2中输入到分层多模融合网络中的在线视频数据的帧输入到YOLO目标检测器中,根据YOLO目标检测器产生的每个对象的目标限定框坐标表示,构建静态信息和动作表征,静态信息作为对象对的物理空间线索,动作表征作为谓语的物理空间线索,将对象对的物理空间线索和谓语的物理空间线索拼接得到拼接后的物理空间线索;
[0011]步骤5,将步骤2中输入到分层多模融合网络中的在线视频数据的帧输入到YOLO目标检测器中,YOLO目标检测器产生的每个目标的种类通过语义嵌入层来建模对象对和谓词的共现属性,将对象类别映射到一个隐藏空间中的唯一的对应隐藏表示,隐藏表示被连接得到关系预测的语义嵌入线索;
[0012]步骤6:将步骤3得到的视觉外观线索、步骤4得到的拼接后的物理空间线索与步骤
5得到的语义嵌入线索输入到分层多模信息融合模块中,经过第一层的基于注意力的融合模块,将视觉外观线索中的对象及对象之间的关系进行多角色融合,将物理空间线索中的对象及对象之间的关系进行多角色融合,将语义嵌入线索中的对象及对象之间的关系进行多角色融合,最后通过第二层三线性池化融合模块将各自融合后的视觉外观线索、物理空间线索和语义嵌入线索进行多模态融合,得到总融合结果;
[0013]步骤7:检测步骤6得到的总融合结果中对象对之间的交互关系,交互关系包括上、下、左、右、靠近、远离、跟随,得到在线关系检测结果,完成基于多模态信息融合的在线视频视觉关系检测。
[0014]所述的步骤1中,分层多模融合网络中的两层ASE

GCN层分别为第一ASE

GCN层和第二ASE

GCN层,第一ASE

GCN层和第二ASE

GCN层堆叠在一起;
[0015]所述的ASE

GCN层分别从视觉外观、物理空间和语义先验的角度来探索对象之间的关联性,以捕捉所有可能的潜在交互关系;
[0016]每层ASE

GCN层均包含视觉外观相关邻接矩阵、物理空间相关邻接矩阵和语义先验相关邻接矩阵,视觉外观相关邻接矩阵、物理空间相关邻接矩阵和语义先验相关邻接矩阵决定了节点之间的邻接状态和信息更新权重;
[0017]所述的视觉外观相关邻接矩阵是将对象之间的相似性填充到矩阵中的相应位置,并进行归一化后得到,对象i和对象j之间的相似性为:
[0018][0019]其中,x
i
为对象i的视觉外观特征,x
j
为对象j的视觉外观特征;
[0020]将相似值similarity(x
i
,x
j
)填充到矩阵中的相应位置(i
_loc
,j
_loc
),其中i
_loc
数值与i相等,j
_loc
数值与j相等,然后经过归一化,得到视觉外观相关邻接矩阵;
[0021]所述的物理空间相关邻接矩阵是将对象i和对象j之间的空间位置相关性填充到矩阵中的相应位置,并进行归一化后得到,空间位置相关性为:
[0022][0023]其中,bbox
i
和bbox
j
表示对象i和对象j的边界框,I(
·
)表示bbox
i
和bbox
j
之间的相交区域,U(
·
)代表bbox
i
和bbox
j
间的并集区域,两个对象的空间位置相关性越强,两个对象之间的信息传输权重越大;
[0024]根据第一ASE

GCN层中的视觉外观相关邻接矩阵、物理空间相关邻接矩阵和语义先验相关邻接矩阵决定的邻接节点更新第一层中每个节点的特征,特征是每个节点的隐状态,根据第二ASE

GCN层中的视觉外观相关邻接矩阵、物理空间相关邻接矩阵和语义先验相关邻接矩阵决定的邻接节点更新第二层中每个节点的特征,特征是每个节点的隐状态;
[0025]堆叠后的第一ASE

GCN层和第二ASE

GCN层将视觉特征与邻接节点信息聚合在一起,得到视觉外观特征;
[0026]所述的语义嵌入层用于构建对象对和谓词的共现属性,将对象类别映射到一个隐藏空间中的唯一的对应隐藏表示,隐藏表示被连接得到关系预测的语义嵌入线索;
[0027]所述的分层多模融合模块采用三线性池化融合方法,即构建的分层多模融合网络
(HMMFnet)将原来的双线性池化融合方法扩展为三线性池化融合方法,利用多对象视觉外观信息、物理空间信息和语义嵌入信息形成互补,提升视觉关系特征的表达能力;
[0028]所述的步骤6中,视觉外观线索中的对象及对象之间的关系进行多角色融合时的公式为:
[0029][0030]其中,表示客体之间的视觉外观特征,表示谓词的视觉外观特征,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息融合的在线视频视觉关系检测方法,其特征在于该方法的步骤包括:步骤1,构建分层多模融合网络,所构建的分层多模融合网络中包括两层ASE

GCN层、分层多模融合模块、YOLO目标检测器和语义嵌入层,分层多模融合模块包括第一层的基于注意力的融合模块和第二层的三线性池化融合模块;步骤2,将在线视频数据输入到步骤1构建的分层多模融合网络中;步骤3,步骤2中输入到分层多模融合网络中的在线视频数据通过深度神经网络提取每个对象的初始视觉特征,并将提取的每个对象的初始视觉特征输入到两层ASE

GCN层,得到视觉外观线索;步骤4,将步骤2中输入到分层多模融合网络中的在线视频数据的帧输入到YOLO目标检测器中,根据YOLO目标检测器产生的每个对象的目标限定框坐标表示,构建静态信息和动作表征,静态信息作为对象对的物理空间线索,动作表征作为谓语的物理空间线索,将对象对的物理空间线索和谓语的物理空间线索拼接得到拼接后的物理空间线索;步骤5,将步骤2中输入到分层多模融合网络中的在线视频数据的帧输入到YOLO目标检测器中,YOLO目标检测器产生的每个目标的种类通过语义嵌入层来建模对象对和谓词的共现属性,将对象类别映射到一个隐藏空间中的唯一的对应隐藏表示,隐藏表示被连接得到关系预测的语义嵌入线索;步骤6:将步骤3得到的视觉外观线索、步骤4得到的拼接后的物理空间线索与步骤5得到的语义嵌入线索输入到分层多模信息融合模块中,经过第一层的基于注意力的融合模块,将视觉外观线索中的对象及对象之间的关系进行多角色融合,将物理空间线索中的对象及对象之间的关系进行多角色融合,将语义嵌入线索中的对象及对象之间的关系进行多角色融合,最后通过第二层三线性池化融合模块将各自融合后的视觉外观线索、物理空间线索和语义嵌入线索进行多模态融合,得到总融合结果;步骤7:检测步骤6得到的总融合结果中对象对之间的交互关系,完成基于多模态信息融合的在线视频视觉关系检测。2.根据权利要求1所述的一种基于多模态信息融合的在线视频视觉关系检测方法,其特征在于:所述的步骤1中,分层多模融合网络中的两层ASE

GCN层分别为第一ASE

GCN层和第二ASE

GCN层,第一ASE

GCN层和第二ASE

GCN层堆叠在一起;所述的ASE

GCN层分别从视觉外观、物理空间和语义先验的角度来探索对象之间的关联性,以捕捉所有可能的潜在交互关系。3.根据权利要求2所述的一种基于多模态信息融合的在线视频视觉关系检测方法,其特征在于:每层ASE

GCN层均包含视觉外观相关邻接矩阵、物理空间相关邻接矩阵和语义先验相关邻接矩阵,视觉外观相关邻接矩阵、物理空间相关邻接矩阵和语义先验相关邻接矩阵决定了节点之间的邻接状态和信息更新权重。4.根据权利要求3所述的一种基于多模态信息融合的在线视频视觉关系检测方法,其特征在于:所述的视觉外观相关邻接矩阵是将对象之间的相似性填充到矩阵中的相应位置,并进
行归一化后得到,对象i和对象j之间的相似性为:其中,x
i
为对象i的视觉外观特征,x
j
为对象j的视觉外观特征。5.根据权利要求3或4所述的一种基于多模态信息融合的在线视频视觉关系检测方法,其特征在于:所述的物理空间相关邻接矩阵是将对象i和对象j之间的空间位置相关性填充到矩阵中的相应位置,并进行归一化后得到,空间位置相关性为:其中,bbox
i
和bbox
j
表示对象i和对象j的边界框,I(
·
)表示bbox
i
和bbox
j
之间的相交区域,U(
·
)代表bbox
i
和bbox
j
间的并集区域。6.根据权利要求5所述的一种基于多模态信息融合的在线视频视觉关系检测方...

【专利技术属性】
技术研发人员:甘明刚何玉轩陈杰马千兆吴玮张琰苏绍文郭嘉
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1