当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于动作配准的人物视频对齐方法技术

技术编号:30099894 阅读:27 留言:0更新日期:2021-09-18 09:04
本发明专利技术公开了一种基于动作配准的人物视频对齐方法。该方法利用检测人体关键点作为动作配准基准点,对相似动作进行配准以抵消视频拍摄角度和画面旋转带来的影响,并通过自监督的时间循环一致性来进行视频对齐。为了实现这一目标,使用空间变换网络对人体所在区域进行校准,并获取对应人体关键点。此外,采用随机抽样一致性算法将识别到的人体特征点按误差最小原则进行筛选,用筛选得到的点将用于动作配准。最后,引入了一种自监督的时间循环一致性对齐算法,将动作配准后的视频与基准视频进行对齐。本发明专利技术可以在视频对齐和识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。对齐问题的准确率。对齐问题的准确率。

【技术实现步骤摘要】
一种基于动作配准的人物视频对齐方法


[0001]本申请涉及计算机视觉领域,尤其涉及一种基于动作配准的视频对齐方法。

技术介绍

[0002]视频对齐是一种应用于视频画面配音、监控和直播同步、视频质量评价等领域的技术。它的目标是将相似视频的时间按事件进行对齐。与直接提取特征不同,加入动作配准的对齐方法可以抵消旋转带来的影响。传统的方法,如卷积神经网络和依据颜色提取特征值,可以应对画面平移带来的误差。但对于旋转带来的影响,如拍摄角度的变化等,传统方法无法提取到该类特征信息,从而导致性能低下。
[0003]由于近年来深度神经网络的发展,使得人体关键点识别技术得到提升。许多研究将人体关节作为特征点,重构人体运动模型,进行动作识别和预测。在人物视频对齐任务中,则要求对于人物动作阶段拥有更高细粒度的识别。在将视频帧的特征值对齐的过程中,主要的挑战来源于人物特征的水平位置和投影角度的不同。因此,可以将人物动作配准作用于相似动作的视频并应用于视频对齐,以实现动作特征的平移不变性和旋转不变性。

技术实现思路

[0004]专利技术目的:在本文中,我们没有使用卷积神经网络直接提取对比特征值,而是使用一种基于人物关键点的单应性变换,以完成对人物动作进行配准,利用配准后计算的特征值实现自监督的最近邻循环一致性以完成对齐任务。本专利技术提供了一种基于动作配准的人物视频对齐方法。
[0005]技术方案:一种基于动作配准的人物视频对齐方法,其特征在于,包括以下步骤:
[0006]步骤一:使用目标检测网络对目标视频X中的每帧X
i
进行人物检测,并获取人物检测框T(X
i
)。
[0007]步骤二:对于检测框T(X
i
)应用空间变换网络,使得待检测人物全部处于新的检测框T

(X
i
)内,且使检测框最小。
[0008]步骤三:对每个人物检测框T

(X
i
),检测人物关键点K
i,j
(a
i,j
,b
i,j
)。
[0009]步骤四:最小化对应关键点的距离误差,对待配准视频A与基准视频B进行单应性变换。
[0010]步骤五:待配准视频A和基准视频B的每帧进行特征提取。
[0011]步骤六:给定待配准视频A中的一帧,计算基准视频B中与之特征值最接近的为最近邻。
[0012]步骤七:重复步骤六,计算基准视频B在待配准视频A中的最近邻。
[0013]步骤八:若待配准视频A中一帧A
i
在基准视频B中的最近邻B
j
,其在待配准视频A中的最近邻为A
i
,则我们将这两帧对齐。
[0014]进一步的,步骤一中,目标检测网络为YOL0v3目标检测网络,得到的人物检测框T(X
i
)以矩形框的四角表示。
[0015]进一步的,步骤二中,通过更新空间变换矩阵参数,使得新检测框为包含检测目标的最小矩形。
[0016]进一步的,步骤三中,对应人体骨骼模型,以17个人体重要关节作为人物关键点K
i,j
(a
i,j
,b
i,j
)。
[0017]进一步的,步骤三中,人物关键点K
i,j
(a
i,j
,b
i,j
),其特征在于,i代表第i号检测框,j代表第j号检测点,a、b分别为该关键点对应的横纵坐标。
[0018]进一步的,步骤四中,从17个对应点对中以对应点对距离误差最小原则选出4个点对,计算单应性矩阵,以完成人物视频的动作配准。
[0019]进一步的,步骤五中,特征值提取包括时域信息叠加、三维卷积、全局最大池化、全连接层和线性投影层。
[0020]进一步的,步骤六中,按位比较待配准视频A中一帧A
i
与基准视频B的每帧特征值差值,取其最小的基准视频B中的帧B
j
为A
i
在基准视频B中的最近邻。
[0021]进一步的,步骤八中,A
i
的特征值在基准视频B中的最近邻B
j
,反过来在待配准视频A中寻找最近邻恰好回到A
i
本身,即循环一致性,我们将这种循环一致性作为自监督视频对齐的依据。
[0022]有益效果:本专利技术提供了一种用于视频对齐的深度学习方法,相比较现有技术,针对视频对齐,采用动作配准的方式实现旋转不变性,以获得更好的对齐性能。同时,运用空间变换网络,优化了人体关键点识别的精确度,从而提高了动作配准精度。下面的实施例表明:该专利技术可以在视频对齐中有效提取具有平移和旋转不变性的人物动作特征。此外,该专利技术所提出的方法在公共数据集上超过了未使用动作配准的对齐方法。
附图说明
[0023]图1为本专利技术的方法流程图;
[0024]图2为本专利技术的算法框架图;
[0025]图3为本专利技术与其他方法的比较图。
具体实施方式
[0026]下面结合附图与具体实施方式对本专利技术作进一步详细说明:
[0027]本实施例提供一种用于基于自监督和动作配准,且用于Penn动作数据集视频对齐的方法,通过将视频帧进行动作配准,提取视频帧特征值以实现循环一致性即可实现良好的视频对齐效果。
[0028]该方法的流程如图1所示,算法框架如图2所示
[0029]步骤一:使用目标检测网络对目标视频X中的每帧X
i
进行人物检测,并获取人物检测框T(X
i
)。
[0030]步骤二:对于检测框T(X
i
)应用空间变换网络,使得待检测人物全部处于新的检测框T

(X
i
)内,且使检测框最小。
[0031]步骤三:对每个人物检测框T

(X
i
),检测人物关键点K
i,j
(a
i,j
,b
i,j
)。
[0032]步骤四:最小化对应关键点的距离误差,对待配准视频A与基准视频B进行单应性变换。
[0033]步骤五:待配准视频A和基准视频B的每帧提取特征值。
[0034]步骤六:给定待配准视频A中的一帧,计算基准视频B中与之特征值最接近的为最近邻。
[0035]步骤七:重复步骤六,计算基准视频B在待配准视频A中的最近邻。
[0036]步骤八:若待配准视频A中一帧A
i
在基准视频B中的最近邻B
j
,其在待配准视频A中的最近邻为A
i
,则我们将这两帧对齐。
[0037]在本实施例中,Penn动作数据集由13类人物动作视频组成,共计2150个视频,涵盖常见的运动方式,包括开合跳、俯卧撑、举重、打高尔夫球等。视频帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动作配准的人物视频对齐方法,其特征在于,包括以下步骤:步骤一:使用目标检测网络对目标视频X中的每帧X
i
进行人物检测,并获取人物检测框T(X
i
);步骤二:对于检测框T(X
i
)应用空间变换网络,使得待检测人物全部处于新的检测框T

(X
i
)内,且使检测框最小;步骤三:对每个人物检测框T

(X
i
),检测人物关键点K
i,j
(a
i,j
,b
i,j
);步骤四:最小化对应关键点的距离误差,对待配准视频A与基准视频B进行单应性变换;步骤五:待配准视频A和基准视频B的每帧进行特征提取;步骤六:给定待配准视频A中的一帧,计算基准视频B中与之特征值最接近的为最近邻;步骤七:重复步骤六,计算基准视频B在待配准视频A中的最近邻;步骤八:若待配准视频A中一帧A
i
在基准视频B中的最近邻B
j
,其在待配准视频A中的最近邻为A
i
,则我们将这两帧对齐。2.根据权利要求1所述的一种基于动作配准的视频对齐方法,其特征在于,步骤一中,目标检测网络为YOL0v3目标检测网络,得到的人物检测框T(X
i
)以矩形框的四角表示。3.根据权利要求1所述的一种基于动作配准的视频对齐方法,其特征在于,步骤二中,通过更新空间变换矩阵参数,使得新检测框为包含检测目标的最小矩形。4.根据权利要...

【专利技术属性】
技术研发人员:张宇米思娅王梓骅
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1