基于计算机视觉的视频重复动作计数系统技术方案

技术编号:34509947 阅读:12 留言:0更新日期:2022-08-13 20:55
本发明专利技术涉及一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器。本发明专利技术提出了一个基于深度学习计算机视觉的重复动作计数系统,实现了视频中重复动作的检测、定位和计数,使得计算机视觉在该项任务上的应用达到了领先的水平。达到了领先的水平。达到了领先的水平。

【技术实现步骤摘要】
基于计算机视觉的视频重复动作计数系统


[0001]本专利技术涉及一种视频重复动作计数系统,主要被用于计算机视觉中的重复动作检测及计数。

技术介绍

[0002]重复/周期性运动的计数是对于视频中的人的重复动作数目进行估计的一项计数。动作的重复在人们的生活中无处不在,重复运动的检测及计数具有非常广阔的应用前景。比如在人体运动时,对体育锻炼动作的检测计数可以帮助人们进行健身状况的监测和计划的制定。尽管人们可以使用一些人体传感器,但基于计算机视觉的方法具有便利性、非侵入性等特点。基于计算机视觉的重复动作计数可以取代过去一些低效的、人力消耗大的人工计数工作,如体育考试计数(跳绳,引体向上等),工人做工计数,乐器弹奏等。此外,对计算机视觉重复动作计数方法的研究也可以为其他视频分析任务提供支持,例如行人检测和动作识别。
[0003]基于重复动作计数的潜在价值,许多方法应运而生。早期,人们使用了手工设计的特征通过检测的方法在视频中估计重复动作的数量。然而由于检测的这项任务本身在当时并不是一个解决的很好的问题,同时当视频中的动作出现中断、视角或距离的变换等现象时会导致计数器的性能急速下降,从而影响最终的计数准确率。后来,人们受别的视频理解任务的启发,提出了基于人体的形体特征(如人体关键点)的重复动作计数方法,提高了计数的准确率,但是该方法在动作幅度小、频率高、周期长等情况下表现性能很差。如今,许多工作是基于视频特征之间的相似度空间预测重复动作的分布。该类方法具有高效、准确率高、可解释性强的特点,也因此成为了目前研究重复计数的主流方法之一。

技术实现思路

[0004]本专利技术的目的是:解决视频中重复动作的检测及计数问题。
[0005]为了达到上述目的,本专利技术的技术方案是提供了一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器,其中:
[0006]视频特征提取器用于在多个时域尺度上对视频图像进行特征提取,将输入视频分成不同时间尺度下的视频子序列S
i
,将各个视频子序列S
i
输入视频特征提取器从而得到不同时间尺度的嵌入向量E
i

[0007]时域自相关层使用视频特征提取器提取到的不同时间尺度的嵌入向量E
i
基于自相关机制构建不同尺度下的时域自相关矩阵后,将不同尺度下的时域自相关矩阵拼接成多维自相关矩阵;
[0008]编码器对多维自相关矩阵进行特征提取;
[0009]编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数;动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧
图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。
[0010]优选地,所述视频特征提取器采用videoswin

transformer。
[0011]优选地,将所述输入视频分成{1帧,4帧,8帧}下的所述视频子序列S
i

[0012]优选地,所述时域自相关层先基于不同时间尺度的所述嵌入向量E
i
得到相似度矩阵M
i
,然后将相似度矩阵M
i
再拼接起来形成一个三维自相关矩阵M。
[0013]优选地,所述编码器采用基于多头自注意力机制的Transformer Encoder对所述三维自相关矩阵M进行特征提取。
[0014]优选地,利用带标准的视频数据对所述视频重复动作计数系统进行训练,标准时,在视频帧的时间轴上标注每个重复动作的开始位置和结束位置,然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值,其中, G(y)表示每个动作周期概率密度分布,y
k
表示当前帧图像在时间维度上的坐标,从而得到每一个视频的重复动作的细粒度标注数据,即真实的密度图;
[0015]训练时所采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。
[0016]本专利技术提出了一个基于深度学习计算机视觉的重复动作计数系统,实现了视频中重复动作的检测、定位和计数,使得计算机视觉在该项任务上的应用达到了领先的水平。
附图说明
[0017]图1为本专利技术的原理图;
[0018]图2示意了RepCount数据集测试结果。
具体实施方式
[0019]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0020]充分分析重复动作在时域上的特性后,本专利技术提出了一种基于计算机视觉的视频重复动作计数系统。如图1所示,本专利技术提出的视频重复动作计数系统采用基于时域自相关的卷积神经网络框架,主要由四部分组成:视频特征提取器;时域自相关层;编码器;动作预测器。
[0021]视频特征提取器用于在多个时域尺度上对视频图像进行特征提取。本实施例中,视频特征提取器目前最新、最强大的videoswin

transformer。将输入视频分成不同时间尺度{1帧,4帧,8帧}下的视频子序列S
i
,将各个视频子序列S
i
输入视频特征提取器从而得到不同时间尺度的嵌入向量E
i

[0022]时域自相关层使用视频特征提取器提取到的视频特征基于自相关机制构建不同尺度下的时域自相关矩阵,通过该时域自相关矩阵表征不同尺度下提取的视频特征之间的时域相关性。时域自相关层先基于不同时间尺度的嵌入向量E
i
得到相似度矩阵M
i
,然后将相似度矩阵M
i
再拼接起来形成一个三维自相关矩阵M。
[0023]编码器采用基于多头自注意力机制的Transformer Encoder对三维自相关矩阵 M进行特征提取。
[0024]编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数。动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。区别于传统的回归每个重复动作的分布的方法,本专利技术提供的方法具有准确率高、鲁棒性强、收敛速度快的特点。
[0025]利用带标准的视频数据对上述视频重复动作计数系统进行训练,标注时,在视频帧的时间轴上标注每个重复动作的开始位置和结束位置,然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值,其中,G(y)表示每个动作周期概率密度分布,y
k
表示当前帧图像在时间维度上的坐标,从而得到每一个视频的重复动作的细粒度标注数据,即真实的密度图。
[0026]训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器,其中:视频特征提取器用于在多个时域尺度上对视频图像进行特征提取,将输入视频分成不同时间尺度下的视频子序列S
i
,将各个视频子序列S
i
输入视频特征提取器从而得到不同时间尺度的嵌入向量E
i
;时域自相关层使用视频特征提取器提取到的不同时间尺度的嵌入向量E
i
基于自相关机制构建不同尺度下的时域自相关矩阵后,将不同尺度下的时域自相关矩阵拼接成多维自相关矩阵;编码器对多维自相关矩阵进行特征提取;编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数;动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。2.如权利要求1所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,所述视频特征提取器采用videoswin

transformer。3.如权利要求1所述的一种基于计算机视觉的视频重...

【专利技术属性】
技术研发人员:高盛华胡华章董思勋赵逸群廉东泽厉征鑫
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1