System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于脑眼融合的多模态视频流目标检测方法技术_技高网

一种基于脑眼融合的多模态视频流目标检测方法技术

技术编号:42336541 阅读:20 留言:0更新日期:2024-08-14 16:12
本发明专利技术公开了一种基于脑眼融合的多模态视频流目标检测方法。该方法采集被试观看步复杂视频内容时的脑电数据与眼动数据,制作脑电正负样本对、眼动正负样本对,以及在通道维度拼接的脑电—眼动拼接样本。然后将正负样本对输入特征提取模型中,进行对比学习,训练模型参数。再将脑电样本、眼动样本以及拼接样本输入分类器中进行学习。最后将未知样本输入训练好的分类器中,并将预测为目标的对应样本眼动数据取出,根据注视点和注视时间绘制注视区域,生成热点图,获得目标的运动轨迹,实现目标检测。该方法利用多模态信息搜索同类别相似信息,实现了信息的互补,在较高的识别率下揭示了目标的移动轨迹,提高了识别的可靠性。

【技术实现步骤摘要】

本专利技术属于脑机协同,涉及到目标检测方法,具体涉及一种基于脑眼融合的多模态视频流目标检测方法


技术介绍

1、对大规模视频数据集进行分类和标记,以便对视频内容进行理解和组织,这种任务涉及到从视频数据中识别和区分不同的场景、动作、对象等。如何从海量复杂视频中定位到目标,已经成为一个重要的研究方向。

2、人类大脑具有强大的并行处理能力,能够利用上下文信息来理解和识别目标,在不同环境和情境下快速调整和适应。这使得人类能够通过将目标与周围环境和语境联系起来,更准确地理解目标的意义和特征,并在各种复杂情况下成功识别目标,例如光线不足、背景杂乱或者目标部分遮挡等。这些优势使得人类大脑在从大量视频信息中识别目标时具有高效性、准确性和鲁棒性,远远超过目前计算机视觉系统的能力。

3、当人脑接收到低概率事件刺激时,会在脑电信号中产生一个潜伏期约为300毫秒的正向波峰,该信号被命名为p300。p300是一种事件相关电位,属于大脑认知过程中的一部分,可从脑电数据中提取。作为重要的erp特征之一,p300在脑电研究和应用中得到了广泛的应用和关注。与图像和视频相比,处理脑电数据需要的计算规模相对较小,将复杂视频问题转为从脑电中提取有效特征是一个可行的方向。而脑机接口(brain-computerinterface,bci)作为一种直接连接人类大脑与外部设备的技术,可以记录人在发现目标时的脑电,为此提供了技术基础。然而在复杂的视频中,目标的出现时间难以准确定位,导致难以捕捉到大脑在观看视频时产生的erp波形。此外,由于视频中目标出现的概率较低,导致采集到的目标数据极度不平衡,从而影响了目标识别的准确率。

4、使用眼动数据来识别复杂视频中的目标结合了人类视觉系统的特点和认知过程。眼动数据可以提供观察者在观看视频时眼睛的注视位置和运动轨迹,通过分析这些数据,可以快速准确地确定观察者感兴趣的目标在视频中的位置,实现高效的目标定位。由于被试容易因为干扰目标而移动视线,造成虚报,同时眼动数据也存在目标数据极度不平衡的问题。

5、因此,提高复杂视频中的目标识别的准确率仍然是一项重大的挑战。


技术实现思路

1、针对现有技术的不足,本专利技术提出了一种基于脑眼融合的多模态视频流目标检测方法,利用脑电数据与眼动数据配对实现多模态信息互补,并结合时空多头自注意力机制对脑电和眼动的注意力信息进行跨膜态特征提取,解码分类,并用对比表征学习解决类不平衡问题,提高复杂视频中的目标识别率。

2、一种基于脑眼融合的多模态视频流目标检测方法,具体步骤如下:

3、步骤1、制作脑机实验范式

4、在多个地点采用不同角度拍摄目标行人视频,然后将它们剪辑为时长相等的视频流,制作成快速视觉呈现范式。在无目标视频中,干扰目标随机出现;而在有目标出现的视频中,目标的出现时长相等,出现时间点、出现位置以及拍摄角度随机,服饰不同,干扰目标随机出现。

5、步骤2、采集脑电数据和眼动数据

6、采用脑机接口(bci)中的快速序列视觉呈现(rsvp)范式向被试播放步骤1中制作的复杂视频内容,同步采集被试在观看视频内容时的脑电数据和眼动数据。在每轮实验前,对被试注视点进行校准,要求被试需要在目标出现时注视目标,视线随目标移动,其余时间注视屏幕中心。

7、步骤3、数据预处理与样本对构建

8、读取步骤2中采集到的脑电数据,对坏道进行插值重建,然后滤波并降采样,标记无目标、目标出现和目标消失时候的erp特征,划分片段并进行基线校准,得到脑电样本。

9、读取步骤2中采集的眼动数据,降采样到和脑电数据相同的频率,标记无目标、目标出现、目标消失时的注视点坐标和左右眼瞳孔大小,划分片段,得到眼动样本。

10、将脑电样本与眼动样本按顺序一一对应,并将对应的样本在通道维度进行拼接,得到拼接样本。

11、将得到的脑电样本和眼动样本分别按照无目标、目标出现、目标消失的标签构建正负样本对,同标签的样本两两组合形成3种正样本对,不同标签的样本两两组合形成3种负样本对。

12、步骤4、提取脑电特征和眼动特征

13、将步骤3中构建的样本对的两个样本依次输入特征提取模型中,首先使用多头自注意力机制提取时空间注意力权重,获得不同维度之间的依赖关系,然后进行时间维度和空间维度的特征提取,从而得到两个样本的特征向量。

14、步骤5、对比学习

15、将步骤4得到的一个样本对的两个特征向量映射到向量空间中。在这个向量空间中,计算两个样本向量特征之间的空间距离,并通过损失函数对空间距离进行反向传播,更新步骤4中特征提取模型的参数,使得同类别样本之间的距离尽可能小,而不同类别样本之间的距离尽可能大,以实现更好地表征学习。

16、步骤6、多模态特征融合

17、将步骤3中的对应的脑电样本和眼动样本分别输入经过对比学习后的特征提取模型中,拼接样本输入未经过对比学习的特征提取模型中。特征提取模型中的多头自注意力机制可以显示建模多模态不同通道之间的相互依赖关系,自适应各通道的重要性,完成拼接样本的跨膜态特征提取。

18、将三个样本的特征输入分类器中,利用下采样的类别平衡数据对分类器进行训练,得到三个样本的独立预测结果。然后,训练一组自适应的可学习权重,用于将三个独立的预测结果融合在一起,从而输出最终的预测结果。

19、步骤7、线上视频目标检测

20、采集被试观看视频时产生的脑电数据和眼动数据,处理后输入步骤6训练好的特征提取模型与分类器中,得到对未知样本有无目标、目标出现和消失的预测,然后将预测结果为目标出现的样本的眼动数据取出,根据注视点和注视时间绘制注视区域,生成热点图,获得目标的运动轨迹。

21、本专利技术具有以下有益效果:

22、本方法利用多模态信息搜索同类别相似信息,区分不同类别特征,以实现信息的互补。借助多头自注意力机制的卷积神经网络,有效捕获了脑电和眼动的通道及时间特征。采用解耦对比表征学习和分类器学习,增强了寻找类内和类间信息的细微特征能力,并解决了类别不平衡问题。通过脑电和眼动的特性,在较高的识别率下揭示了目标的移动轨迹,提高了识别的可靠性,显著提升了在复杂视频中目标识别的准确率。

本文档来自技高网...

【技术保护点】

1.一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:具体包括以下步骤:

2.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:制作脑机实验范式时,在多个地点以不同角度模拟监控摄像头拍摄视频流,目标为特定的一个人;将视频流剪辑成多个总时长10秒的视频片段,部分视频片段中有目标出现,其余视频片段中无目标出现;在无目标出现的视频中,与目标无关的物品和行人随机出现,用于干扰被试的判断;在有目标出现的视频中,目标出现的时间和位置随机,使用的交通工具随机,且衣饰不同,在部分视频中目标存在部分遮挡,同时与目标无关的物品和行人随机出现;经过剪辑后,在有目标出现的视频片段中,目标会在视频的第1s至第4s出现,并在对应视频的第5s至第8s消失,目标出现的持续时间均为4s。

3.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:使用64通道的Neuroscan设备进行非侵入式脑电采集,采用10-20系统电极放置法,采集前所有电极的阻抗均保持在15KΩ以下,采样率为1000hz;使用SMI眼动仪进行眼动数据采集,被试被要求在未识别到目标时,注视屏幕正中心,观察到目标时,视线随目标移动,目标消失后继续注视屏幕正中心。

4.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:对采集到的脑电数据进行预处理,首先,对标记的坏道进行插值重建,然后进行巴特沃斯带通滤波处理,将信号滤波至0.1-40Hz;接着,将数据降采样至250Hz,并标记出无目标、目标出现和目标消失时的ERP特征;然后将数据划分为多个片段,使用刺激开始前300ms的脑电数据对刺激开始后1500ms的脑电数据进行基线校准;对于无目标的脑电数据,按一定间隔切片作为无目标样本;对于有目标的数据,取目标出现前300ms至出现后1200ms的数据作为目标出现样本,取目标消失前300ms至目标消失后1200ms的数据作为目标消失样本。

5.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:对采集的眼动数据,首先降采样至250Hz;然后标记无目标、目标出现和目标消失时的注视点坐标和左右眼瞳孔大小,并按照时间戳划分片段,得到眼动样本。

6.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:将处理后的脑电样本按照无目标、目标出现、目标消失的标签构建正负样本对,同类别两两组合形成3种正样本对,不同类别两两组合形成3种负样本对,正负样本对的数量相等;将处理后的眼动样本按照同样方法正负样本对,眼动样本对的数量大于脑电样本对的数量。

7.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:使用EEGNet对经过多头自注意力机制的样本进行特征提取。

8.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:使用两个全连接层和一个激活层将样本对的特征向量展开、激活、降维,得到对应的估量值xz1、xz2:

9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1~8中任一项所述的方法。

...

【技术特征摘要】

1.一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:具体包括以下步骤:

2.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:制作脑机实验范式时,在多个地点以不同角度模拟监控摄像头拍摄视频流,目标为特定的一个人;将视频流剪辑成多个总时长10秒的视频片段,部分视频片段中有目标出现,其余视频片段中无目标出现;在无目标出现的视频中,与目标无关的物品和行人随机出现,用于干扰被试的判断;在有目标出现的视频中,目标出现的时间和位置随机,使用的交通工具随机,且衣饰不同,在部分视频中目标存在部分遮挡,同时与目标无关的物品和行人随机出现;经过剪辑后,在有目标出现的视频片段中,目标会在视频的第1s至第4s出现,并在对应视频的第5s至第8s消失,目标出现的持续时间均为4s。

3.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:使用64通道的neuroscan设备进行非侵入式脑电采集,采用10-20系统电极放置法,采集前所有电极的阻抗均保持在15kω以下,采样率为1000hz;使用smi眼动仪进行眼动数据采集,被试被要求在未识别到目标时,注视屏幕正中心,观察到目标时,视线随目标移动,目标消失后继续注视屏幕正中心。

4.如权利要求1所述一种基于脑眼融合的多模态视频流目标检测方法,其特征在于:对采集到的脑电数据进行预处理,首先,对标记的坏道进行插值重建,然后进行巴特沃斯带通滤波处理,将信号滤波至0.1-40hz;接着,将数据降采样至250hz,并标记出无目标、目标出现和目标消失时的e...

【专利技术属性】
技术研发人员:孔万增马龙杰洪晨益陈承瑞莫凯麟何秉峰张建海
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1