一种基于类脑反馈交互的多模态融合视频分类方法及系统技术方案

技术编号：36286303 阅读：16 留言：0更新日期：2023-01-13 09:57

本发明专利技术公开一种基于类脑反馈交互的多模态融合视频分类方法及系统，方法包括：对视频预处理，获得视频中的视觉信息和听觉信息；进行特征提取后输入到基于神经网络架构搜索的多模态融合框架中进行融合得到融合信息表示；将融合信息表示、视觉信息和听觉信息输入基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块，输出多模态融合的视觉信息和多模态融合的听觉信息并分别经过全连接层得到每种分类的置信度；将每种分类的置信度，输入DS决策融合模块，得到最终的分类结果。本发明专利技术借鉴人脑感知外界环境的处理方式，从各种模态感知信息并实现多感觉整合，有效提高了对视频中的人物表情进行识别分类的准确率。别分类的准确率。别分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于类脑反馈交互的多模态融合视频分类方法及系统

[0001]本专利技术属于计算机视觉
，具体涉及一种基于类脑反馈交互的多模态融合视频分类方法及系统。

技术介绍

[0002]面对复杂的交互场景时，单凭某一模态(如听觉或者视觉)的信息难以准确地做出判断。例如在对视频中的人物表情进行识别分类的过程中，单一模态的信息将导致分类结果准确率较低等问题。

技术实现思路

[0003]为解决现有技术中的不足，本专利技术提供一种基于类脑反馈交互的多模态融合视频分类方法及系统，借鉴人脑感知外界环境的处理方式，从各种模态感知信息并实现多感觉整合，有效提高了对视频中的人物表情进行识别分类的准确率。
[0004]为达到上述目的，本专利技术所采用的技术方案是：
[0005]第一方面，提供一种基于类脑反馈交互的多模态融合视频分类方法，包括：接收输入的视频并进行预处理，获得视频中的视觉信息和听觉信息；对视觉信息和听觉信息分别进行特征提取，然后输入到基于神经网络架构搜索的多模态融合框架中进行融合得到融合信息表示；将融合信息表示、视觉信息和听觉信息输入基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块，输出多模态融合的视觉信息和多模态融合的听觉信息；将多模态融合的视觉信息和多模态融合的听觉信息分别经过全连接层得到每种分类的置信度；将每种分类的置信度，输入DS决策融合模块，得到最终的分类结果。
[0006]进一步地，接收输入的视频并进行预处理，获得视频中的视觉信息和听觉信息，包...

【技术保护点】

【技术特征摘要】
1.一种基于类脑反馈交互的多模态融合视频分类方法，其特征在于，包括：接收输入的视频并进行预处理，获得视频中的视觉信息和听觉信息；对视觉信息和听觉信息分别进行特征提取，然后输入到基于神经网络架构搜索的多模态融合框架中进行融合得到融合信息表示；将融合信息表示、视觉信息和听觉信息输入基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈模块，输出多模态融合的视觉信息和多模态融合的听觉信息；将多模态融合的视觉信息和多模态融合的听觉信息分别经过全连接层得到每种分类的置信度；将每种分类的置信度，输入DS决策融合模块，得到最终的分类结果。2.根据权利要求1所述的基于类脑反馈交互的多模态融合视频分类方法，其特征在于，接收输入的视频并进行预处理，获得视频中的视觉信息和听觉信息，包括：对视频进行分片，使用FFmpeg视频处理包将分片后的视频提取为图像帧，采用Face++提供的人脸检测接口对图像帧进行人脸检测，定位人脸关键点，根据内部关键点和轮廓关键点对图片进行裁剪，得到视觉信息；对视频中的语音进行短时傅里叶变换，并在分帧提取的特征前后通过一阶、二阶差分操作增加前后帧信息，得到具有时域连续性的听觉信息。3.根据权利要求2所述的基于类脑反馈交互的多模态融合视频分类方法，其特征在于，在分帧提取的特征前后通过一阶、二阶差分操作增加前后帧信息，通过以下方法实现：其中，Q表示倒谱系数的阶数，K表示一阶导数的时间差，d
t
表示第t帧的一阶差分值，C
t
代表第t帧的梅尔倒谱系数，将d
t
再带入得二阶差分值。4.根据权利要求1所述的基于类脑反馈交互的多模态融合视频分类方法，其特征在于，对视觉信息和听觉信息分别进行特征提取，包括：视觉信息采用ResNet18提取特征，听觉信息采用ConvLSTM提取特征，然后将提取出的特征通过一维时间卷积层进行卷积操作：其中，表示输入的特征序列，k是模态k
{V,A,F}
的卷积核的大小，d是公共维度。5.根据权利要求1所述的基于类脑反馈交互的多模态融合视频分类方法，其特征在于，基于神经网络架构搜索的多模态融合框架中视听觉融合的基本搜索单元包括五个视觉视频模态输出特征(v1,v2,v3,v4,v5)、三个听觉音频模态输出特征(a1,a2,a3)以及三个非线性激活函数；其中，三个非线性激活函数为：Sigmoid、ReLU、LeakyReLU。6.根据权利要求1所述的基于类脑反馈交互的多模态融合视频分类方法，其特征在于，基于人脑在颞上沟进行视听觉信息整合后对单感觉皮层产生的反馈调制效应构建的反馈
模块，包括两个完全相同的跨模交互器，所述跨模交互器的构建方法包括：定...

【专利技术属性】
技术研发人员：姚潇，李浩辰，宋英慧，徐宁，刘小峰，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人