当前位置: 首页 > 专利查询>中山大学专利>正文

基于双线性的多模态信息处理的人工智能方法、系统及介质技术方案

技术编号:29012405 阅读:95 留言:0更新日期:2021-06-26 05:12
本发明专利技术公开了一种基于双线性的多模态信息处理的人工智能方法、系统及介质,该方法包括:将视频流转化为图像帧;划分动作序列;构建骨架时序特征、RGB和深度时序特征;构建三维特征立方体并输入双线性特征学习模块;输出分类识别结果。本发明专利技术通过双线性的处理方式构造深度网络融合RGBD视频中多模态信息,克服了现有的多模态模型中简单地拼接或加权不同模态输出的特征或激活向量,并没有深入挖掘模态间信息的缺陷,进行准确的动作行为识别。本发明专利技术的双线性操作为平面级计算,计算代价小,适于在实时性要求高的工业领域进行应用。实时性要求高的工业领域进行应用。实时性要求高的工业领域进行应用。

【技术实现步骤摘要】
基于双线性的多模态信息处理的人工智能方法、系统及介质


[0001]本专利技术属于人工智能的
,具体涉及一种基于双线性的多模态信息处理的人工智能方法、系统及介质。

技术介绍

[0002]随着科技的发展,RGBD图像技术逐渐普及,与传统RGB图像不同的是,基于RGBD的图像信息包含了图像中个体的深度信息,同样地,基于RGBD的视频信息的解析也与传统基于RGB的视频信息存在不同。
[0003]在一些新兴的监控场景中,基于RGBD的相机广泛应用,如无人机拍摄场景等,识别这些场景中的个体动作用于监测危险事故等通常是使用这些监控设备主要目的之一。因此基于RGBD的行为识别意义非凡。
[0004]基于RGBD的行为识别是人工智能领域多模态信息研究的一个重要分支,RGBD图像或视频信息包含了图像或视频本身的RGB信息以及深度信息,通过RGBD图像或视频除了可以获取形状、颜色等信息还可以获取距离相机距离等的层次信息,多种模态信息的结合有助于模型更好地判断场景信息。特别地,针对人类行为的视频数据一般还会包含人体骨架信息,通过加入骨架信息,模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于双线性的多模态信息处理的人工智能方法,其特征在于,包括下述步骤:将视频流转化为图像帧,并划分为动作序列;根据所述动作序列构建骨架时序特征、RGB和深度时序特征,并构建三维特征立方体;将所述三维特征立方体输至双线性特征学习模块中,得到激活向量;所述双线性特征学习模块为若干模态池化层和时序池化层的堆叠;取所述激活向量中的最大值对应的类别作为动作识别的分类结果。2.根据权利要求1所述的基于双线性的多模态信息处理方法,其特征在于,所述动作序列具体划分方法为:将输入的图像序列等间隔地分为D个片段,前d个图像序列组成的序列记为长度为d的动作序列;最终得到长度分别从1到D,共计D种的动作序列。3.根据权利要求1所述的基于双线性的多模态信息处理方法,其特征在于,所述骨架时序特征的构建方法具体为:采用dynamic skeleton编码器编码所述动作序列,并输入至循环神经网络,得到骨架时序特征。4.根据权利要求1所述的基于双线性的多模态信息处理方法,其特征在于,所述RGB和深度时序特征的构建方法具体为:构建RGB和深度的动作主成分图:收集每个RGBD图像帧在骨架关节点附近的局部图像块,并拼接成表征动作信息的图像,即GIST图像序列;构建RGB和深度时序特征:从GIST图像序列中选择K个有序动作GIST图像,输入至K通道的卷积神经网络,提取时序特征;所述从GIST图像序列中选择K个有序动作GIST图像的方法具体为:选择GIST图像序列中第帧作为K个有序动作GIST图像中的第u帧,其中ls为输入的GIST序列长度,δ为扰动系数,是服从均匀分布的随机数。5.根据权利要求1所述的基于双线性的多模态信息处理方法,其特征在于,所述构建三维特征立方体具体为:将五种特征进行拼接,构成三维特征立方体,并记为A,其中M
A
为模态维度,T为时间维度,C为...

【专利技术属性】
技术研发人员:胡建芳侯智聪
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1