一种基于双模态相机驱动的人体动作检测方法技术

技术编号：41327139 阅读：7 留言：0更新日期：2024-05-13 15:04

本发明专利技术公开了一种基于双模态相机驱动的人体动作检测方法，属于计算机视觉领域，具体是：首先，分别采用事件相机和普通相机，采集相同时间窗口对应的事件序列和普通视频；针对单个时间窗口内，将事件序列转换堆叠成普通相机对应的同步图片帧；对于同一个时间窗口内视频模态和事件模态对应的同步图片，通过深度神经网络提取各自的初级特征；然后，通过自适应特征学习模块进行空间的对齐增强；使用实例检测器在从普通相机捕获的图片帧中识别并定位感兴趣的实例，生成检测框从而确定每个实例在图片中的位置和范围。最后，将各实例通过多阶段的密集串行结构进行交互建模，并通过融合不同时间窗口的上下文信息来增强记忆特征的生成，最终得到用于分类的动作特征。本发明专利技术提高了现有的人体动作识别与定位在各种复杂场景下的鲁邦性和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，具体是一种基于双模态相机驱动的人体动作检测方法。

技术介绍

1、人体行为识别是计算机视觉领域的一个研究热点，它旨在从给定的图像、视频或传感器数据中自动识别和理解人体的动作和行为。

2、事件相机是一种新型的图像采集设备，以事件驱动的方式工作，基于事件相机的人体行为识别技术相较于传统相机技术在动态范围、延迟和帧率等方面具有明显的优势，能够提供更准确、更细致的人体行为分析和识别结果，但它通常无法提供与传统图像相机相同的外观信息，因此将事件数据与传统图像数据融合可以更全面地理解场景和行为。

3、现有技术中，追求多模态的人体动作识别文献如：[1]faure等人提出了一种基于rgb图像流和骨骼姿态流的多模态动作检测网络，通过结合rgb图像流和骨骼姿态流来捕获人-环境交互信息，试图利用骨骼流和视频流的双模态框架实现高效的动作识别，从而提升动作检测的精准度；该方法利用了多种特征信息，超越了单一模态的动作检测能力。

4、[2]提出了稀疏-密集互补学习(sdcl)框架，充分利用密集帧和稀疏事件的互补信息，有效地提取身份特征来提升人员重识别的效果；该方法首次将事件流模态引入到视频人员重识别任务中，在人员重识别领域提出事件相机和普通相机之间的协同学习网络，利用rgb帧和事件的互补信息来提升识别效果。

5、但是，上述文件存在以下缺点：

6、文献1使用的骨骼流需要依赖外部姿态检测模块，虽然减轻了数据集标注的工作量，但是检测效果直接影响后续网络表现，并且基于骨骼的tra

7、文献2是基于rgb图像序列和事件流协同的人员重识别。事件相机可以捕捉到亮度变化，进而获得对应位置的运动信息，由此事件流在提取动作特征方面有独特优势。但是，本方法没有充分利用rgb图像序列本身包含的丰富时间域信息来提取人员动作特征，这是该方法的一个限制。

8、[1]g.j.faure,m.-h.chen and s.-h.lai,"holistic interaction transformernetwork for action detection,"2023 ieee/cvf winter conference on applicationsof computer vision (wacv),waikoloa,hi,usa,2023,pp.3329-3339,doi:10.1109/wacv56688.2023.00334.

9、[2]c.cao et al.,"event-guided person re-identification via sparse-dense complementary learning,"2023 ieee/cvf conference on computer vision andpattern recognition(cvpr),vancouver,bc,canada,2023,pp.17990-17999,doi:10.1109/cvpr52729.2023.01725.

技术实现思路

1、本专利技术通过事件相机与普通相机之间的互相学习，提出一种基于双模态相机驱动的人体动作检测方法，提高了现有的人体动作识别与定位在各种复杂场景下的鲁邦性和准确率。

2、所述基于双模态相机驱动的人体动作检测方法，具体步骤如下：

3、步骤一、分别采用事件相机和普通相机，采集相同时间窗口对应的事件序列和普通视频；

4、步骤二、针对单个时间窗口内，事件相机采集的事件序列，通过转换将其堆叠成普通相机对应的同步图片帧；

5、首先，选用矩形波函数筛选事件，根据筛选的各事件的位置和极性，计算图像的强度i(t)：

6、

7、事件序列为e＝{e1,e2,…,ei,…,en}，其中ei是第i个事件，rect(x)是矩形波函数，表示在[0,1]区间内的单位矩形波。ti表示第i个事件发生的时间点，δt表示时间窗口的宽度，与普通相机的帧率相对应。

8、利用该时间窗口内对所有事件进行累积堆叠以生成对应的同步图像。

9、步骤三、对于同一个时间窗口内视频模态和事件模态对应的同步图片，通过同一深度神经网络提取两模态各自的特征，作为初级特征；

10、深度神经网络选用slowfast-resnet-50。

11、步骤四、通过自适应特征学习模块将得到的初级特征进行空间的对齐增强；

12、空间对齐增强的公式为：

13、fv＝pe→v·fe (2)

14、fe/v′(i,j)＝ωt⊙{(fe/v(i,j),fv/e(i,j)} (3)

15、在上式中，fe，fv表示得到的事件模态初级特征和普通模态初级特征，pe→v表示从事件模态到普通模态的坐标系投影。fe/v′(i,j)表示在位置(i,j)，将事件模态/普通模态的特征或注意力信息对齐到普通模态/事件模态的空间坐标系统中，利用事件模态以增强视觉信息。fe/v(i,j)和fv/e(i,j)分别表示事件模态和普通模态在位置(i,j)对应的初始特征。

16、公式(3)表达了两种情况：一个是事件模态(e)和视觉模态(v)的空间注意力对齐，利用事件模态(e)的特征或注意力信息来增强视觉模态(v)；另一个是视觉模态(v)和事件模态(e)的空间注意力对齐，利用视觉模态(v)的特征或注意力信息来增强事件模态(e)。

17、通过坐标系投影pe→v，在空间坐标系上达成一致；然后通过空间注意力权重ωt，使用⊙逐元素相乘，增强两类特征在空间维度的表征能力。

18、步骤五、使用实例检测器在从普通相机捕获的图片帧中识别并定位感兴趣的实例，为每个实例生成对应的检测框，从而确定每个实例在图片中的位置和范围。

19、利用检测框，将空间对齐增强后的初级特征进行最大池化操作。

20、实例检测器采用faster-rcnn，并通过3d roi align操作进行最大池化，减少特征的维度同时保留最显著的特征。对于事件相机模态，复用在普通相机图片帧中得到的检测框以减少计算量。

21、步骤六、将各实例通过多阶段的密集串行结构进行交互建模融合，并通过融合不同时间窗口的上下文信息来增强记忆特征的生成，最终得到用于分类的动作特征。

22、所述交互建模融合具体为：

23、首先，对于给定的实例特征人pvpe，对象特征ovoe，手部特征hvhe和记忆特征mvme，交互块自适应地为每种类型的特征交互建模；

24、然后，通过聚合多个交互的对齐融合结构，得到用于预测的动作特征其中φε为交互建模融合的参数。

25、每个交互块接受之前块的所有输出，并使用可学习的权重将它们聚集在一起，以及另一条分支对应的输出，通过相似性注意力矩阵将他们对齐融合。

本文档来自技高网...

【技术保护点】

1.一种基于双模态相机驱动的人体动作检测方法，其特征在于，具体步骤如下：

2.如权利要求1所述的一种基于双模态相机驱动的人体动作检测方法，其特征在于，所述步骤二具体为：

3.如权利要求1所述的一种基于双模态相机驱动的人体动作检测方法，其特征在于，所述步骤三中，深度神经网络选用SlowFast-resnet-50；基于主干-头结构的深度学习网络，通过主干网络从视频和事件模态中提取深层特征。

4.如权利要求1所述的一种基于双模态相机驱动的人体动作检测方法，其特征在于，所述步骤五中，利用所述检测框，将空间对齐增强后的初级特征进行最大池化操作；

5.如权利要求1所述的一种基于双模态相机驱动的人体动作检测方法，其特征在于，所述步骤六中，所述每个交互块接受之前块的所有输出，并使用可学习的权重将它们聚集在一起，以及另一条分支对应的输出，通过相似性注意力矩阵将他们对齐融合；

6.如权利要求1所述的一种基于双模态相机驱动的人体动作检测方法，其特征在于，所述步骤六中，对于记忆特征，通过提取不同时间窗口的上下文信息来增强记忆特征的生成；具体为：

...

【技术特征摘要】

1.一种基于双模态相机驱动的人体动作检测方法，其特征在于，具体步骤如下：

2.如权利要求1所述的一种基于双模态相机驱动的人体动作检测方法，其特征在于，所述步骤二具体为：

3.如权利要求1所述的一种基于双模态相机驱动的人体动作检测方法，其特征在于，所述步骤三中，深度神经网络选用slowfast-resnet-50；基于主干-头结构的深度学习网络，通过主干网络从视频和事件模态中提取深层特征。

4.如权利要求1所述的一种基于双模态相机驱动的人体动作检测方法，其特征...

【专利技术属性】
技术研发人员：孙丹丹，白江涛，高建龙，冒明宇，刘俊江，王思齐，周铭锐，李洪达，范馨月，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人