一种视频中动作语义识别检索的方法技术

技术编号：30773024 阅读：23 留言：0更新日期：2021-11-10 12:46

本发明专利技术公开了一种视频中动作语义识别检索的方法，包括如下步骤：将视频切割成存在运动的分段运动视频，找出分段运动视频中的稳定帧；进行SlowFast自适应跨帧动作识别；将提取出的分段运动视频作为Fast算法模块的输入；稳定帧作为slow算法模块的输入，利用SlowFast算法进行动作语义识别，得到对应的动作语义识别结果Out1，建立视频检索库，当用户输入对应动作语义查询时，提取出对应的分段运动视频以供用户查询。它通过预处理，可以在大大减少SlowFast算法的计算量的前提下，提高其准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频中动作语义识别检索的方法

[0001]本专利技术属于动作语义识别
，具体涉及一种视频中动作语义识别检索的方法。

技术介绍

[0002]在日常生活中，人们有时需要在一段很长的视频中，寻找一组特定的动作片段。例如在几天的视频数据中，判断老人跌倒的时间，从而观测其跌倒时的周围情况。但是，我们很可能不知道具体的时间、地点，不知道哪个摄像头的视频中，出现过这一动作。人们需要一个基于动作的语义的视频检索功能。当我们在很多地方的很多视频中，检索到相同的动作后，我们可以把这些动作视频集中起来，形成一个整体相同动作的效果，可以集中在一个多屏幕的智能展示系统上展示，起到一个整齐划一的效果。
[0003]在类似的工作中，存在基于人脸识别、旁白识别的工作，但是基于动作语义的视频检索功能的研究较少，目前，最著名的相关算法是何凯明的SlowFast算法，该算法的核心思路是，视频行为识别需要从视频中提取鲁棒的外观和运动特征来进行行为识别，所谓SlowFast是指采用Slow和Fast两种采样率的path来并行处理视频，输入两个path的是视频采样后的帧，Slow path以较低的采样率来处理输入视频，提取随时间变化较慢的外观特征，为了提取鲁棒的外观特征，卷积核的空间通道数较大；Fast path以较高的采样率来处理输入视频，提取随时间变化较快的运动特征，为了降低该通道的复杂度，卷积核的空间通道数较小；然后通过横向连接对两个path的特征进行融合，进行行为识别。
[0004]SlowFast算法中，存在以下问题：1、在...

【技术保护点】

【技术特征摘要】
1.一种视频中动作语义识别检索的方法，其特征在于，包括如下步骤：步骤1，采用OpenPose工具箱提取视频图像中人体骨骼关键点，得到人体骨骼的三维坐标表示；OpenPose工具箱提取人体骨骼关键点后，得到的每帧人体骨骼三维坐标为M(fi,ki)=(x(f
i
,k
i
),y(f
i
,k
i
),z(f
i
,k
i
))；其中x(f
i
,k
i
)、y(f
i
,k
i
)、z(f
i
,k
i
)为第f
i
帧、编号为k
i
骨骼点的x、y、z轴坐标，k
i
为人体骨骼关键点；步骤2，用骨骼关键点坐标的变化程度检测连续图像中是否有动作存在，并将视频切割成存在运动的分段运动视频集Vd(d
i
)，其中，d
i
=1~d
imax
，d
imax
是分段运动视频的总数；步骤3，进行SlowFast自适应跨帧动作识别；步骤3.1，将分段运动视频集Vd(d
i
)中的分段运动视频作为Fast算法模块的输入；步骤3.2，利用SlowFast算法进行动作语义识别，得到每个分段运动视频对应的动作语义识别结果Out1(d
i
)，动作语义识别结果Out1(d
i
)实际输出的是对应分段运动视频中概率最高的动作；步骤4，建立视频检索库，所述视频检索库包括分段运动视频以及每段运动视频对应的动作语义识别结果，当用户输入对应动作语义查询时，提取出对应的分段运动视频以供用户查询。2.根据权利要求1所述一种视频中动作语义识别检索的方法，其特征在于，步骤2中用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在，并将视频切割成存在运动的分段运动视频集Vd(d
i
)；具体包括如下步骤：步骤2.1，对于视频V={Im(f
i
)}中每帧图片Im(f
i
)，f
i
是从1~F
imax
的编号，F
imax
是视频V的最大帧数目，计算所有相邻图像中的骨骼关键点坐标变化量；当f
i
=Fimax时，即最后一帧时，D；步骤2.2，在坐标系中绘制出视频V中所有帧的骨骼关键点坐标变化量的折线图L2，坐标系的X轴是帧的编号，Y轴的骨骼关键点坐标变化量；步骤2.3，在折线图L2中，建立沿X轴移动的平滑窗口，平滑窗口大小为Th2帧，移动步长为，所述表示对取整，计算出平滑窗口中平均值；步骤2.4，当>Th3时，则判定当前平滑窗口对应的连续图像中有动作存在，提取出视频中所有>Th3的连续图像，作为存在动作的视频段；当Th3时，则判定当前平滑窗口对应的连续图像中出现了动作的暂停或者停止，把该图像作为视频的分段点，对视频进行切割，从而切割成存在运动的分段运动视频；
当和均Th3时，删除图像、图像、以及位于图像和图像之间的图像；得到存在运动的分段运动视频Vd(d
i
)。3.根据权利要求2所述一种视频中动作语义识别检索的方法，其特征在于，步骤2.3中Th2的值来源于AVA的数据集的统计结果，统计AVA数据集已标记的动作数据集的两个数据集之间的间隔，取其1/4，作为Th2值。4.根据权利要求2所述一种视频中动作语义识别检索的方法，其特征在于，步骤2.4中Th3的值来源于AVA数据集的统计结果，即在AVA数据集中，统计所有已标记的动作数据集的，取其最小值的80%作为Th3的值。5.根据权利要求1所述一种视频中动作语义识别检索的方法，其特征在于，步骤3.1还包括，对每个分段运动视频中图像的稳定帧进行检测，选择出编号为最大和最小的稳定帧，...

【专利技术属性】
技术研发人员：翟晓东，汝乐，凌涛，凌婧，
申请(专利权)人：江苏奥斯汀光电科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人