一种视频中动作语义识别检索的方法技术

技术编号:30773024 阅读:23 留言:0更新日期:2021-11-10 12:46
本发明专利技术公开了一种视频中动作语义识别检索的方法,包括如下步骤:将视频切割成存在运动的分段运动视频,找出分段运动视频中的稳定帧;进行SlowFast自适应跨帧动作识别;将提取出的分段运动视频作为Fast算法模块的输入;稳定帧作为slow算法模块的输入,利用SlowFast算法进行动作语义识别,得到对应的动作语义识别结果Out1,建立视频检索库,当用户输入对应动作语义查询时,提取出对应的分段运动视频以供用户查询。它通过预处理,可以在大大减少SlowFast算法的计算量的前提下,提高其准确性。性。性。

【技术实现步骤摘要】
一种视频中动作语义识别检索的方法


[0001]本专利技术属于动作语义识别
,具体涉及一种视频中动作语义识别检索的方法。

技术介绍

[0002]在日常生活中,人们有时需要在一段很长的视频中,寻找一组特定的动作片段。例如在几天的视频数据中,判断老人跌倒的时间,从而观测其跌倒时的周围情况。但是,我们很可能不知道具体的时间、地点,不知道哪个摄像头的视频中,出现过这一动作。人们需要一个基于动作的语义的视频检索功能。当我们在很多地方的很多视频中,检索到相同的动作后,我们可以把这些动作视频集中起来,形成一个整体相同动作的效果,可以集中在一个多屏幕的智能展示系统上展示,起到一个整齐划一的效果。
[0003]在类似的工作中,存在基于人脸识别、旁白识别的工作,但是基于动作语义的视频检索功能的研究较少,目前,最著名的相关算法是何凯明的SlowFast算法,该算法的核心思路是,视频行为识别需要从视频中提取鲁棒的外观和运动特征来进行行为识别,所谓SlowFast是指采用Slow和Fast两种采样率的path来并行处理视频,输入两个path的是视频采样后的帧,Slow path以较低的采样率来处理输入视频,提取随时间变化较慢的外观特征,为了提取鲁棒的外观特征,卷积核的空间通道数较大;Fast path以较高的采样率来处理输入视频,提取随时间变化较快的运动特征,为了降低该通道的复杂度,卷积核的空间通道数较小;然后通过横向连接对两个path的特征进行融合,进行行为识别。
[0004]SlowFast算法中,存在以下问题:1、在SlowFast的慢算法模块中,其慢通道可以是任意一个将视频片段作为时空立方体输入的卷积模型,例如[12,49,5,56]。Slow pathway的关键理念是:输入视频帧的时间跨度τ很大,也就是说每τ帧才处理一帧。其研究的典型τ值为16,也就是说对于30帧的视频,slow pathway每秒大约采样处理1~2帧。将slow pathway采样处理的帧数表示为T,那么原始视频片段的长度就是T
×
τ帧,这一个模块的是整个识别动作语义的核心。
[0005]但是,视频中人们的运动往往是存在运动模糊的,对于一个上述长度为30帧的视频而言,其只用到了2帧,这2帧只要有1帧是模糊的,那么整个的识别效果就会大打折扣。由于运动原本就是动作识别的前提,就是说,运动模糊会永远伴随这个问题,所以说上述的2帧是很有可能存在运动模糊的。
[0006]2、在SlowFast的快算法模块中,它是一个具有以下特性的另一个卷积模型,它具有高帧率。快通道Fast pathway的目标是在时间维度上有很好的表示,Fast分支的时间跨度是τ/α,其中α是快慢分支的帧率比,α>1,显然Fast分支的时间跨度stride比Slow分支要小。这两个分支在相同的原始视频片段上执行,所以Fast分支处理的帧数就是αT,比Slow分支密集了α倍,实验中的典型值为α=8。α的存在是SlowFast概念的关键所在,它明确表明了两个路径以不同的时间速度工作,从而驱动了两个子网,即两个路径的实例化网络。
[0007]在这里,Fast模块也存在一个问题,就是在常见的动作视频数据集中,很明显,各
个动作视频内容的长短不一,有的是10帧左右,有的是60帧左右,也就是说,动作与动作之间的时间跨度是不一样的,所以,用固定的帧跨度去解决所有的动作范围,是不合适的。如果我们选择用大于最大值,即大于60帧以上的时间跨度去平滑计算,理解所有的动作,那么计算量就会很大。因此存在一个动作检测的预处理工作,就可以减少快通道的计算量。

技术实现思路

[0008]本专利技术基于以上的问题,提出了一种视频中动作语义识别检索的方法,在原有的SlowFast算法基础上,提出了依据图像稳定指标,确定慢通道的输入图像,提高慢模块检测精度;依靠骨骼动作运动快速检测,确定快通道的输入视频段,减少快通道计算量的混合算法本专利技术的一种视频中动作语义识别检索的方法,包括如下步骤:步骤1,采用OpenPose工具箱提取视频图像中人体骨骼关键点,得到人体骨骼的三维坐标表示;OpenPose工具箱提取人体骨骼关键点后,得到的每帧人体骨骼三维坐标为M(fi,ki)=(x(f
i
,k
i
),y(f
i
,k
i
),z(f
i
,k
i
));其中x(f
i
,k
i
)、y(f
i
,k
i
)、z(f
i
,k
i
)为第f
i
帧、编号为k
i
骨骼点的x、y、z轴坐标,k
i
为人体骨骼关键点;步骤2,用骨骼关键点坐标的变化程度检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频集Vd(d
i
),其中,d
i =1~d
imax
,d
imax
是分段运动视频的总数;步骤3,进行SlowFast自适应跨帧动作识别;步骤3.1,将分段运动视频集Vd(d
i
)中的分段运动视频作为Fast算法模块的输入;步骤3.2,利用SlowFast算法进行动作语义识别,得到每个分段运动视频对应的动作语义识别结果Out1(d
i
),动作语义识别结果Out1(d
i
)实际输出的是对应分段运动视频中概率最高的动作;步骤4,建立视频检索库,所述视频检索库包括分段运动视频以及每段运动视频对应的动作语义识别结果,当用户输入对应动作语义查询时,提取出对应的分段运动视频以供用户查询。
[0009]进一步的,步骤2中用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频集Vd(d
i
);具体包括如下步骤:步骤2.1,对于视频V={Im(f
i
)}中每帧图片Im(f
i
),f
i
是从1~F
imax
的编号,F
imax
是视频V的最大帧数目,计算所有相邻图像中的骨骼关键点坐标变化量;当f
i
=F
imax
时,即最后一帧时,D;步骤2.2,在坐标系中绘制出视频V中所有帧的骨骼关键点坐标变化量的折线图L2,坐标系的X轴是帧的编号,Y轴的骨骼关键点坐标变化量;步骤2.3,在折线图L2中,建立沿X轴移动的平滑窗口,平滑窗口大小为Th2帧,移动
步长为,所述表示对取整,计算出平滑窗口中平均值;步骤2.4,当>Th3时,则判定当前平滑窗口对应的连续图像中有动作存在,提取出视频中所有>Th3的连续图像,作为存在动作的视频段;当Th3时,则判定当前平滑窗口对应的连续图像中出现了动作的暂停或者停止,把该图像作为视频的分段点,对视频进行切割,从而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频中动作语义识别检索的方法,其特征在于,包括如下步骤:步骤1,采用OpenPose工具箱提取视频图像中人体骨骼关键点,得到人体骨骼的三维坐标表示;OpenPose工具箱提取人体骨骼关键点后,得到的每帧人体骨骼三维坐标为M(fi,ki)=(x(f
i
,k
i
),y(f
i
,k
i
),z(f
i
,k
i
));其中x(f
i
,k
i
)、y(f
i
,k
i
)、z(f
i
,k
i
)为第f
i
帧、编号为k
i
骨骼点的x、y、z轴坐标,k
i
为人体骨骼关键点;步骤2,用骨骼关键点坐标的变化程度检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频集Vd(d
i
),其中,d
i
=1~d
imax
,d
imax
是分段运动视频的总数;步骤3,进行SlowFast自适应跨帧动作识别;步骤3.1,将分段运动视频集Vd(d
i
)中的分段运动视频作为Fast算法模块的输入;步骤3.2,利用SlowFast算法进行动作语义识别,得到每个分段运动视频对应的动作语义识别结果Out1(d
i
),动作语义识别结果Out1(d
i
)实际输出的是对应分段运动视频中概率最高的动作;步骤4,建立视频检索库,所述视频检索库包括分段运动视频以及每段运动视频对应的动作语义识别结果,当用户输入对应动作语义查询时,提取出对应的分段运动视频以供用户查询。2.根据权利要求1所述一种视频中动作语义识别检索的方法,其特征在于,步骤2中用骨骼关键点坐标的变化程度快速检测连续图像中是否有动作存在,并将视频切割成存在运动的分段运动视频集Vd(d
i
);具体包括如下步骤:步骤2.1,对于视频V={Im(f
i
)}中每帧图片Im(f
i
),f
i
是从1~F
imax
的编号,F
imax
是视频V的最大帧数目,计算所有相邻图像中的骨骼关键点坐标变化量;当f
i
=Fimax时,即最后一帧时,D;步骤2.2, 在坐标系中绘制出视频V中所有帧的骨骼关键点坐标变化量的折线图L2,坐标系的X轴是帧的编号,Y轴的骨骼关键点坐标变化量;步骤2.3, 在折线图L2中,建立沿X轴移动的平滑窗口,平滑窗口大小为Th2帧,移动步长为,所述表示对取整,计算出平滑窗口中平均值;步骤2.4,当>Th3时,则判定当前平滑窗口对应的连续图像中有动作存在,提取出视频中所有>Th3的连续图像,作为存在动作的视频段;当Th3时,则判定当前平滑窗口对应的连续图像中出现了动作的暂停或者停止,把该图像作为视频的分段点,对视频进行切割,从而切割成存在运动的分段运动视频;
当和均Th3时,删除图像、图像、以及位于图像和图像之间的图像;得到存在运动的分段运动视频Vd(d
i
)。3.根据权利要求2所述一种视频中动作语义识别检索的方法,其特征在于,步骤2.3中Th2的值来源于AVA的数据集的统计结果,统计AVA数据集已标记的动作数据集的两个数据集之间的间隔,取其1/4,作为Th2值。4.根据权利要求2所述一种视频中动作语义识别检索的方法,其特征在于,步骤2.4中Th3的值来源于AVA数据集的统计结果,即在AVA数据集中,统计所有已标记的动作数据集的,取其最小值的80%作为Th3的值。5.根据权利要求1所述一种视频中动作语义识别检索的方法,其特征在于,步骤3.1还包括,对每个分段运动视频中图像的稳定帧进行检测,选择出编号为最大和最小的稳定帧,...

【专利技术属性】
技术研发人员:翟晓东汝乐凌涛凌婧
申请(专利权)人:江苏奥斯汀光电科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1