当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于类脑反馈交互的多模态融合视频分类方法及系统技术方案

技术编号:36286303 阅读:16 留言:0更新日期:2023-01-13 09:57
本发明专利技术公开一种基于类脑反馈交互的多模态融合视频分类方法及系统,方法包括:对视频预处理,获得视频中的视觉信息和听觉信息;进行特征提取后输入到基于神经网络架构搜索的多模态融合框架中进行融合得到融合信息表示;将融合信息表示、视觉信息和听觉信息输入基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块,输出多模态融合的视觉信息和多模态融合的听觉信息并分别经过全连接层得到每种分类的置信度;将每种分类的置信度,输入DS决策融合模块,得到最终的分类结果。本发明专利技术借鉴人脑感知外界环境的处理方式,从各种模态感知信息并实现多感觉整合,有效提高了对视频中的人物表情进行识别分类的准确率。别分类的准确率。别分类的准确率。

【技术实现步骤摘要】
一种基于类脑反馈交互的多模态融合视频分类方法及系统


[0001]本专利技术属于计算机视觉
,具体涉及一种基于类脑反馈交互的多模态融合视频分类方法及系统。

技术介绍

[0002]面对复杂的交互场景时,单凭某一模态(如听觉或者视觉)的信息难以准确地做出判断。例如在对视频中的人物表情进行识别分类的过程中,单一模态的信息将导致分类结果准确率较低等问题。

技术实现思路

[0003]为解决现有技术中的不足,本专利技术提供一种基于类脑反馈交互的多模态融合视频分类方法及系统,借鉴人脑感知外界环境的处理方式,从各种模态感知信息并实现多感觉整合,有效提高了对视频中的人物表情进行识别分类的准确率。
[0004]为达到上述目的,本专利技术所采用的技术方案是:
[0005]第一方面,提供一种基于类脑反馈交互的多模态融合视频分类方法,包括:接收输入的视频并进行预处理,获得视频中的视觉信息和听觉信息;对视觉信息和听觉信息分别进行特征提取,然后输入到基于神经网络架构搜索的多模态融合框架中进行融合得到融合信息表示;将融合信息表示、视觉信息和听觉信息输入基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块,输出多模态融合的视觉信息和多模态融合的听觉信息;将多模态融合的视觉信息和多模态融合的听觉信息分别经过全连接层得到每种分类的置信度;将每种分类的置信度,输入DS决策融合模块,得到最终的分类结果。
[0006]进一步地,接收输入的视频并进行预处理,获得视频中的视觉信息和听觉信息,包括:对视频进行分片,使用FFmpeg视频处理包将分片后的视频提取为图像帧,采用Face++提供的人脸检测接口对图像帧进行人脸检测,定位人脸关键点,根据内部关键点和轮廓关键点对图片进行裁剪,得到视觉信息;对视频中的语音进行短时傅里叶变换,并在分帧提取的特征前后通过一阶、二阶差分操作增加前后帧信息,得到具有时域连续性的听觉信息。
[0007]进一步地,在分帧提取的特征前后通过一阶、二阶差分操作增加前后帧信息,通过以下方法实现:
[0008][0009]其中,Q表示倒谱系数的阶数,K表示一阶导数的时间差,d
t
表示第t帧的一阶差分值,C
t
代表第t帧的梅尔倒谱系数,将d
t
再带入得二阶差分值。
[0010]进一步地,对视觉信息和听觉信息分别进行特征提取,包括:视觉信息采用ResNet18提取特征,听觉信息采用ConvLSTM提取特征,然后将提取出的特征通过一维时间卷积层进行卷积操作:
[0011][0012]其中,表示输入的特征序列,k是模态k
{V,A,F}
的卷积核的大小,d是公共维度。
[0013]进一步地,基于神经网络架构搜索的多模态融合框架中视听觉融合的基本搜索单元包括五个视觉视频模态输出特征(v1,v2,v3,v4,v5)、三个听觉音频模态输出特征(a1,a2,a3)以及三个非线性激活函数;其中,三个非线性激活函数为:Sigmoid、ReLU、LeakyReLU。
[0014]进一步地,基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块,包括两个完全相同的跨模交互器,所述跨模交互器的构建方法包括:定义查询矩阵键矩阵值矩阵其中都是权重;这样从β到α的潜在跨模适应
[0015][0016]其中,Y与Q具有相同的序列长度T,同时它也表示在V的特征空间中;softmax的缩放计算了一个分数矩阵其第(i,j)项计算了模态α中第i个时间步到模态β的第j个时间步的注意力;因此,Y的第i个时间步长是V的加权汇总,权重由softmax()中的第i行决定;在跨模态注意力计算中,增加残差连接,然后,注入另一个位置的前馈子层;每个跨模态注意块直接从低级特征序列Z
β[0]适应,其中,位置全连接前馈网络作用于通道维度,将每个位置的注意力结果映射到一个更大维度的特征空间,然后引入非线性进行筛选,最后恢复回原始维度。
[0017]进一步地,将每个跨模态注意块的所有维度固定为d
{α,β,k,v}
;跨模交互器包括D层跨模态注意块,形式上看,它是对i=1,...,D层进行前馈计算,具体计算方式如下:
[0018][0019]其中,f
θ
是由θ参数化的位置前馈子层,表示第i层的CM多头形式,即多头注意力,LN表示层归一化。
[0020]进一步地,所述跨模交互器采用基于半监督学习的基因表达式编程算法进行运算。
[0021]进一步地,最终的分类结果为:
[0022][0023]其中,m1(θ
i
)为证据1对命题θ
i
的信任程度,m1(θ
i
)
·
m2(θ
j
)为证据融合后的证据对命题θ=θ
i
∩θ
j
的信任程度,θ为情感分类类别,为空集;n为类别总数,为归一化因子,K是冲突因子,表示证据体的总体冲突,如下式所示:
[0024][0025]第二方面,提供一种基于类脑反馈交互的多模态融合视频分类系统,包括:数据预处理模块,用于接收输入的视频并进行预处理,获得视频中的视觉信息和听觉信息;多模态融合模块,用于对视觉信息和听觉信息分别进行特征提取,然后输入到基于神经网络架构搜索的多模态融合框架中进行融合得到融合信息表示;还用于将融合信息表示、视觉信息和听觉信息输入基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块,输出多模态融合的视觉信息和多模态融合的听觉信息;还用于将多模态融合的视觉信息和多模态融合的听觉信息分别经过全连接层得到每种分类的置信度;分类模块,用于将每种分类的置信度,输入DS决策融合模块,得到最终的分类结果。
[0026]与现有技术相比,本专利技术所达到的有益效果:
[0027](1)本专利技术通过对视觉信息和听觉信息分别进行特征提取,然后输入到基于神经网络架构搜索的多模态融合框架中进行融合得到融合信息表示;将融合信息表示、视觉信息和听觉信息输入基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块,输出多模态融合的视觉信息和多模态融合的听觉信息;将多模态融合的视觉信息和多模态融合的听觉信息分别经过全连接层得到每种分类的置信度;将每种分类的置信度,输入DS决策融合模块,得到最终的分类结果,有效提高了对视频中的人物表情进行识别分类的准确率;
[0028](2)本专利技术决策层面的多模态融合方法采用不确定推理算法—DS证据理论的融合方法,针对此算法易产生数据冲突,导致产生与常理完全相悖结论的问题,提出了基于皮尔逊相关系数的方法,通过获取证据体间的相关性从修正证据体的方法解决冲突悖论问题。
附图说明
[0029]图1是本专利技术实施例提供的一种基于类脑反馈交互的多模态融合视频分类方法的主要流程示意图;
[0030]图2是本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于类脑反馈交互的多模态融合视频分类方法,其特征在于,包括:接收输入的视频并进行预处理,获得视频中的视觉信息和听觉信息;对视觉信息和听觉信息分别进行特征提取,然后输入到基于神经网络架构搜索的多模态融合框架中进行融合得到融合信息表示;将融合信息表示、视觉信息和听觉信息输入基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块,输出多模态融合的视觉信息和多模态融合的听觉信息;将多模态融合的视觉信息和多模态融合的听觉信息分别经过全连接层得到每种分类的置信度;将每种分类的置信度,输入DS决策融合模块,得到最终的分类结果。2.根据权利要求1所述的基于类脑反馈交互的多模态融合视频分类方法,其特征在于,接收输入的视频并进行预处理,获得视频中的视觉信息和听觉信息,包括:对视频进行分片,使用FFmpeg视频处理包将分片后的视频提取为图像帧,采用Face++提供的人脸检测接口对图像帧进行人脸检测,定位人脸关键点,根据内部关键点和轮廓关键点对图片进行裁剪,得到视觉信息;对视频中的语音进行短时傅里叶变换,并在分帧提取的特征前后通过一阶、二阶差分操作增加前后帧信息,得到具有时域连续性的听觉信息。3.根据权利要求2所述的基于类脑反馈交互的多模态融合视频分类方法,其特征在于,在分帧提取的特征前后通过一阶、二阶差分操作增加前后帧信息,通过以下方法实现:其中,Q表示倒谱系数的阶数,K表示一阶导数的时间差,d
t
表示第t帧的一阶差分值,C
t
代表第t帧的梅尔倒谱系数,将d
t
再带入得二阶差分值。4.根据权利要求1所述的基于类脑反馈交互的多模态融合视频分类方法,其特征在于,对视觉信息和听觉信息分别进行特征提取,包括:视觉信息采用ResNet18提取特征,听觉信息采用ConvLSTM提取特征,然后将提取出的特征通过一维时间卷积层进行卷积操作:其中,表示输入的特征序列,k是模态k
{V,A,F}
的卷积核的大小,d是公共维度。5.根据权利要求1所述的基于类脑反馈交互的多模态融合视频分类方法,其特征在于,基于神经网络架构搜索的多模态融合框架中视听觉融合的基本搜索单元包括五个视觉视频模态输出特征(v1,v2,v3,v4,v5)、三个听觉音频模态输出特征(a1,a2,a3)以及三个非线性激活函数;其中,三个非线性激活函数为:Sigmoid、ReLU、LeakyReLU。6.根据权利要求1所述的基于类脑反馈交互的多模态融合视频分类方法,其特征在于,基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈
模块,包括两个完全相同的跨模交互器,所述跨模交互器的构建方法包括:定...

【专利技术属性】
技术研发人员:姚潇李浩辰宋英慧徐宁刘小峰
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1