一种体育视频中对参赛运动员进行多人脸跟踪的方法技术

技术编号:13898871 阅读:83 留言:0更新日期:2016-10-25 10:36
本发明专利技术公开了一种体育视频中对参赛运动员进行多人脸跟踪的方法,包括以下步骤:预训练针对人脸识别的卷积神经网络;对输入视频进行镜头分割,选出所有近景镜头片段;对近景镜头中每幅图像进行人脸检测,得到人脸检测响应;关联人脸检测响应形成轨迹片段;根据轨迹片段之间的时空信息限制,生成训练样本;以获得的训练样本作为输入,使用Siamese或Triplet网络对预训练的卷积神经网络进行微调;使用微调后的卷积神经网络,提取每幅人脸图像的特征;分层关联所有轨迹片段,生成人脸运动轨迹。本发明专利技术所述方法,从待跟踪视频中在线收集训练样本,对预训练的卷积神经网络进行微调,从而在线学习更具判别性的人脸特征,进而使用该特征进行更加有效地多人脸跟踪。

【技术实现步骤摘要】

:本专利技术属于视频处理与计算机视觉领域,具体涉及一种体育视频中对参赛运动员进行多人脸跟踪的方法
技术介绍
:多目标跟踪是指对视频序列中多个感兴趣的目标进行定位、跟踪,并且推测每个目标的轨迹。多目标跟踪作为计算机视觉领域中的一个重要课题,在视频监控、目标识别、视频信息发现等方面有重要的价值。在体育视频中的多人脸跟踪是指,对视频中每个参赛运动员的脸部进行定位,同时进行跟踪,最终生成每个参赛运动员的人脸运动轨迹。体育视频中的多人脸跟踪方法作为一个基础技术,可应用于运动员的身份识别、体育视频的内容分析等更高层次的任务中,有着极其重要的商业应用价值。与监控视频中的多目标跟踪问题相比,体育视频中的多目标跟踪问题更具有挑战性。首先,体育视频是由多个摄像机从不同角度对比赛场地进行拍摄的镜头拼接制作而成,相邻两个镜头会存在快速的图像切换或渐变转换等情况。其次,同一个参赛员在不同镜头下具有复杂的姿态、光照、及尺度等方面的变化,这给人脸跟踪问题造成了极大的困难。最后,体育视频中存在着具有相似外观的人脸目标,这给多人脸跟踪技术增加了困难。在现有的体育视频相关专利中,没有对各个参赛运动员的人脸进行跟踪的方法。本专利技术能够弥补这一空缺,准确地对视频中的多个人脸进行定位和跟踪,生成各个运动员的人脸跟踪轨迹。
技术实现思路
:为了克服现有技术的不足,本专利技术提供了一种体育视频中对参赛运动员进行多人脸跟踪的方法。该方法可以对视频中多个参赛运动员的脸部同时进行可靠地定位与跟踪,生成精确的人脸运动轨迹。为达到上述目的,本专利技术采用如下技术方案来实现的:一种体育视频中对参赛运动员进行多人脸跟踪的方法,包括以下步骤:1)在包含不少于3000个不同人脸类别的离线人脸数据集上,使用监督式方法预先训练一个针对人脸识别的卷积神经网络模型;2)通过检测视频中的镜头切换,将输入视频分割成无重叠的镜头片段,并选择出所有近景的镜头片段;3)在每个近景的镜头片段中,使用人脸检测器对每一幅图像进行人脸检测,得到人脸检测响应;4)在每个近景的镜头片段中,将相邻几帧图像中相似度高的人脸检测响应关联为轨迹片段;5)在所得到的轨迹片段中,根据时空信息限制,生成正负两类训练样本;6)以获得的正负训练样本作为输入,使用Siamese或Triplet网络对1)中预训练的卷积神经网络进行微调,在线学习更具区分性和适应性的人脸特征;7)使用微调后的卷积神经网络,提取每个轨迹片段中每幅图像的人脸特征;8)分层关联所有轨迹片段,生成最终的人脸运动轨迹。本专利技术进一步的改进在于,所述步骤1)中,卷积神经网络的结构为输入层-卷积和采样层-输出层,输入层是输入的人脸图像,卷积和采样层包括卷积处理和Max Pooling处理,输出层的每个神经元对应一个人脸类别。本专利技术进一步的改进在于,所述步骤5)中,正训练样本是来自同一个轨迹片段中的两张人脸图像,负训练样本是分别来自两个不同轨迹片段的两张人脸图像,其中这两个轨迹片段在某一帧图像中同时出现;正负训练样本以三元一组的方式组合:两张人脸图像来自同一个轨迹片段,第三张人脸图像来自另一个轨迹片段,其中这两个轨迹片段在某一帧图像中同时出现。本专利技术进一步的改进在于,所述步骤6)中,Siamese网络由结构相同且权值共享的两个卷积神经网络组成,以两张人脸图像作为输入,使用对比损失函数;Triplet网络由结构相同且权值共享的三个卷积神经网络组成,以三元一组的方式作为输入,使用的是Triplet损失函数。本专利技术进一步的改进在于,所述步骤8)中,分两步关联人脸轨迹片段,第一步是在每个镜头片段中,使用多目标跟踪方法,根据目标的运动信息和学习得到的判别性人脸特征关联轨迹片段;第二步是仅利用学习得到的人脸特征,使用层次化合并聚类的方法,关联不同镜头下的轨迹片段,生成最终的人脸目标轨迹。与现有技术相比,本专利技术具有以下有益效果:本专利技术所述的基于人脸识别的多目标跟踪方法,从待跟踪视频中在线收集训练样本,来对预先训练的人脸卷积神经网络进行微调,从而在线学习更具判别性的人脸特征,进而使用该特征进行更加有效地多人脸跟踪。附图说明:图1为本专利技术的流程示意图。具体实施方式:下面结合附图对本专利技术做进一步详细描述:参考图1,本专利技术所述的基于人脸识别的体育视频中多目标跟踪的方法,包括以下步骤:1)在包含大量人脸类别的离线人脸数据集上,使用监督式方法预先训练一个针对人脸识别的卷积神经网络模型。卷积神经网络的结构为“输入层‐卷积和采样层‐输出层”,输入层是输入的人脸图像,卷积和采样层包括卷积处理和Max Pooling处理,输出层的每个神经元对应一个人脸类别。2)通过检测视频中的镜头切换,将输入视频分割成无重叠的镜头片段。根据人脸占正幅图像的比例,及人脸与比赛场地参考物(如草地、球场线等)的关系,选择出所有近景的镜头片段。3)在每个近景的镜头片段中,使用公开发布的人脸检测器对每一幅图像进行人脸检测,得到人脸检测响应。4)在每个近景的镜头片段中,将相邻几帧图像中相似度高的人脸检测响应关联为轨迹片段。5)在所得到的轨迹片段中,根据时空信息限制,生成正负两类训练样本。正训练样本是来自同一个轨迹片段中的两张人脸图像。负训练样本是分别来自两个不同轨迹片段的两张人脸图像,其中这两个轨迹片段在某一帧图像中同时出现。令表示长度为ni的轨迹片段,x表示一张人脸检测响应,则正训练样本若Ti和Tj表示在同一帧中出现过的两个不同的轨迹片段,则负训练样本正负训练样本可以进一步以三元一组(Triplet)的方式组合:两张人脸图像来自来自同一个轨迹片段,第三张人脸图像来自另一个轨迹片段,其中这两个轨迹片段在某一帧图像中同时出现。令Ti和Tj表示在同一帧中出现过的两个不同的轨迹片段,则可以从Ti和Tj中生成训练样本s,6)以获得的训练样本作为输入,使用Siamese或Triplet网络对1)中预先训练的卷积神经网络进行微调,在线学习更具区分性和适应性的人脸特征。Siamese网络由结构相同且权值共享的两个卷积神经网络组成,以两张人脸图像作为输入,使用对比损失函数。Siamese网络中,人脸特征的提取过程可以表示为f(x)=Conv(x;w),其中Conv(·)为映射函数,x∈R227×227×3是输入的人脸图像,f(x)表示提取到的特征向量。令x1,x2表示两个训练样本图像,则表示两张图像特征向量的距离。在训练中使用以下对比损失函数来减小两张相同目标的图像间的距离,同时增大两张不同目标图像间的距离: L P = 1 2 ( y · d f 2 + ( 1 - y ) · m a x ( 0 , τ - d f 2 ) ]]>其本文档来自技高网...

【技术保护点】
一种体育视频中对参赛运动员进行多人脸跟踪的方法,其特征在于,包括以下步骤:1)在包含不少于3000个不同人脸类别的离线人脸数据集上,使用监督式方法预先训练一个针对人脸识别的卷积神经网络模型;2)通过检测视频中的镜头切换,将输入视频分割成无重叠的镜头片段,并选择出所有近景的镜头片段;3)在每个近景的镜头片段中,使用人脸检测器对每一幅图像进行人脸检测,得到人脸检测响应;4)在每个近景的镜头片段中,将相邻几帧图像中相似度高的人脸检测响应关联为轨迹片段;5)在所得到的轨迹片段中,根据时空信息限制,生成正负两类训练样本;6)以获得的正负训练样本作为输入,使用Siamese或Triplet网络对1)中预训练的卷积神经网络进行微调,在线学习更具区分性和适应性的人脸特征;7)使用微调后的卷积神经网络,提取每个轨迹片段中每幅图像的人脸特征;8)分层关联所有轨迹片段,生成最终的人脸运动轨迹。

【技术特征摘要】
1.一种体育视频中对参赛运动员进行多人脸跟踪的方法,其特征在于,包括以下步骤:1)在包含不少于3000个不同人脸类别的离线人脸数据集上,使用监督式方法预先训练一个针对人脸识别的卷积神经网络模型;2)通过检测视频中的镜头切换,将输入视频分割成无重叠的镜头片段,并选择出所有近景的镜头片段;3)在每个近景的镜头片段中,使用人脸检测器对每一幅图像进行人脸检测,得到人脸检测响应;4)在每个近景的镜头片段中,将相邻几帧图像中相似度高的人脸检测响应关联为轨迹片段;5)在所得到的轨迹片段中,根据时空信息限制,生成正负两类训练样本;6)以获得的正负训练样本作为输入,使用Siamese或Triplet网络对1)中预训练的卷积神经网络进行微调,在线学习更具区分性和适应性的人脸特征;7)使用微调后的卷积神经网络,提取每个轨迹片段中每幅图像的人脸特征;8)分层关联所有轨迹片段,生成最终的人脸运动轨迹。2.根据权利要求1所述的一种体育视频中对参赛运动员进行多人脸跟踪的方法,其特征在于,所述步骤1)中,卷积神经网络的结构为输入层-卷积和采样层-输出层,输入层是输入的人脸图像,卷积和采样层包括卷积处理和Max Pooling处理,输出层的每个神经元对应一个人脸类别...

【专利技术属性】
技术研发人员:王进军张顺姜思宇
申请(专利权)人:西安北升信息科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1