一种基于图网络的行为检测方法及装置制造方法及图纸

技术编号：27318008 阅读：76 留言：0更新日期：2021-02-10 09:53

本发明专利技术提供一种基于图网络的行为检测方法及装置，由于采用了图神经网络建模人体骨架结构图，使得所述骨骼关键点的拓扑图以及所述骨骼关键点随着时间运动的动态特征可以有效地被图神经网络所捕获；并由于模型使用的是单阶段的时序动作检测，使得整个网络可以被端到端地训练；还由于模型中采用了特征金字塔的网络结构，使得原始视频中不同长短的动作实例可被有效的检出。本实施例所采用的方法得到的动作检测精度不逊色于目前多种其他的未修剪视频行为检测方法，也是第一个将骨架数据模态引入未修剪视频行为定位的方法。因此本方法不仅有效地对复杂背景下的行为检测方法提供了范例，还保证了模型的检测精度，为后续的行为识别过程提供了研究方向。别过程提供了研究方向。别过程提供了研究方向。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图网络的行为检测方法及装置

[0001]本专利技术属于机器学习中的深度学习领域，涉及未修剪视频行为定位方法以及图神经网络建模非欧空间数据的方法，具体涉及一种基于图网络的行为检测方法。

技术介绍

[0002]未修剪视频人体行为检测技术是针对未修剪视频中动作主体所参与的行为进行分类并对行为的开始时间以及结束时间进行定位的技术。它是视频行为识别技术的升级，更贴近于视频深度学习的实际应用场景。未修剪视频人体行为检测技术在计算机视觉与模式识别领域是一项重要的研究工作，具有丰富多样的实际应用场景，例如智能安防、智能医疗人体康复训练、人机交互等。未修剪视频人体行为检测的实现能够使得人工智能在视频相关应用方面的落地。
[0003]目前，未修剪视频人体行为检测主要包括两个阶段，分别是针对视频中可能存在的行为实例提议框进行关于行为类别置信度的计算以及针对类别置信度高的行为实例提议框进行针对时序锚点框的时间边界与时间长度的回归处理。
[0004]仅基于视频本身而不涉及健壮性更强的骨骼模态的人体数据的这种未修剪视频人体行为检...

【技术保护点】

【技术特征摘要】
1.一种基于图网络的行为检测方法，用于对输入的未修剪视频片段进行骨骼关键点标定从而进行人体行为的分类，其特征在于，包括：步骤S1，构建待训练图神经网络模型，并通过预处理训练集对所述待训练图神经网络模型进行训练从而得到图神经网络模型；步骤S2，对所述未修剪视频片段进行预处理从而得到预处理目标视频；步骤S3，根据预先设有的所述骨骼关键点对所述预处理目标视频进行非欧空间的图数据构图得到单帧视频中所述骨骼关键点的拓扑图以及所述骨骼关键点随着时间运动的动态特征；步骤S4，将预处理目标视频数据输入所述图神经网络模型，从而得到该预处理目标视频数据所对应的所述分类结果以及关于时序锚点框的锚点时间边界的回归结果，并根据预先设定的视频标签以及所述时序锚点框计算置信度分数；步骤S5，按照所述分类置信度的大小对所述时序锚点框进行排序，并使用非极大值抑制来消除重叠度较高的所述时序锚点框从而得到消除结果；步骤S6，对所述分类结果进行后处理从而得到视频行为检测结果；步骤S7，输出所述视频行为检测结果，其中，在所述步骤S1包括以下子步骤：步骤S1-1，针对预先准备的视频数据通过预处理得到预处理训练视频集；步骤S1-2，构建所述待训练图神经网络模型；步骤S1-3，将所述预处理训练集输入所述待训练图神经网络模型；步骤S1-4，对所述待训练图神经网络模型进行前向传递并计算分类误差、回归误差以及多任务误差函数；步骤S1-5，对所述待训练图神经网络模型进行采用反向传播算法计算得到参数梯度值并对所述待训练图神经网络模型进行参数更新；步骤S1-6，判断是否达到预先设置的完成条件，并在判断为否时，进入所述步骤S1-3；步骤S1-7，在判断为是时，将所述待训练图神经网络模型作为所述图神经网络模型输出。2.根据权利要求1所述的一种基于图网络的行为检测方法，其特征在于：其中，在所述步骤S1-1中包括以下子步骤，具体地：步骤S1-1-1，判断所述视频数据是否为骨骼模态的视频数据；步骤S1-1-2，当判断结果为否时，通过合理间隔采样对视频进行人体姿态估计，并进入所述步骤S1-1-1；步骤S1-1-3，当判断结果为是时，以拼接重构的方式得到骨骼模态视频数据子集；步骤S1-1-4，通过在视频的开头加入噪声视频的方式使得所述骨骼模态视频数据子集中的每一段视频片段总体长度均达到预定的值；步骤S1-1-5，对所述骨骼模态视频数据集进行批量归一化处理从而得到归一化图像；步骤S1-1-6，设定视频片段子标签以及长度分别为75和150的所述时序锚点框；步骤S1-1-7，针对所述归一图像里所述时序锚点框的密集程度计算所述时序锚点框与预先设定的视频时间标签之间的交并比；步骤S1-1-8，根据对所述时间交互比的判定将符合标定条件的所述时序锚点框标定为
前景框以及背景框中的任意一个，从而得到预处理训练集。3.根据权利要求1所述的一种基于图网络的行为检测方法，其特征在于：其中，在所述步骤1-2中构建的所述待训练图神经网络模型包括数据预处理模块、时间卷积模块、空间卷积模块、特征金字塔旁路连接模块和全卷积预测模块，所述数据预处理模块包括：随机间隔采样单元，由视频帧数统计函数count_frame以及视频帧数判断逻辑分支与采样函数sample_func；姿态估计单元，用于进行通过人体姿态估计并输出姿态估计结果；以及视频数据拼接单元，由行为片段长度统计函数count_skeleton以及随机间隔生成函数random_gap和视频拼接函数concat以及标签重建函数generate_label构成，所述时间卷积模块包括：第一批量归一化计算单元、第一非线性激活计算单元、第一卷积计算单元、第二批量归一化计算单元、第一随机失活单元以及选择性残差计算单元，所述空间卷积模块包括：卷积单元，用于完成信息骨骼特征的融合过程；以及爱因斯坦求和单元，用于完成骨骼结点依据人体骨骼的构图进行图神经网络中信息传递和聚合的操作，所述特征金字塔旁路连接模块包括：第一卷积单元、第一批量归一化单元、第一非线性激活单元，第二卷积单元、第二批量归一化单元以及第二非线性激活单元，所述特征金字塔旁路连接模块的两个旁路连接为串联关系，所述全卷积预测模块，包括第一全卷积单元、第二全卷积单元以及第三结点卷积单元，所述第一全卷积单元、所述第二全卷积单元以及所述第三结点卷积单元的输出通道数分别为2X、61X、121X，其中的X是所述时序锚点框的个数，所述第一全卷积层以及所述第二全卷积层均含有一个1x1的卷积层，所述输出通道数与所述预处理目标视频数据中视频片段的分类结果的数量均相一致，动作片段的时间起点与终点的回归输出通道数与所述时序锚点框的数量均相一致。4.根据权利要求3所述的一种基于图网络的行为检测方法，其特征在于：其中，所述全卷积预测模块进行的全卷积操作为：根据通过所述时间卷积模块以及所述空间卷积模块得到的时间特征以及空间特征的映射位置，按照所述时序锚点框的数量来输出每个所述时序锚点框所对应的关于人体行为类别的所述分类结果与所述时序锚点框的锚点时间边界的回归结果。5.根据权利要求1所述的一种基于图网络的行为检测方法，其特征在于：其中，在所述步骤S2中进行的所述预处理为：对所述预处理目标视频进行处理并通过拼接从而形成大小为N，C，T，V，M的数据得到预处理目标视频，其中的N为批量处理的所述预处理目标视频的数量，C为骨骼数据的特征数量即通道数目，V为...

【专利技术属性】
技术研发人员：张晓梦，冯瑞，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人