一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法技术

技术编号:22330662 阅读:47 留言:0更新日期:2019-10-19 12:22
一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法属于篮球视频中的语义事件自动识别领域。该方案首先利用光流估计方法,从连续视频帧中获得运动场属性。然后提取运动特征直方图(MCH)作为运动场表征的描述符。随后,提出了一种基于聚类的运动场标签生成方法。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型,可以更有效地表示运动场的特征。最后,将CNN模型的输出特征输入到LSTM结构中进行语义事件识别。此发明专利技术对篮球视频数据智能化管理、篮球技战术分析和自动转播等应用奠定了基础。

A basketball video group behavior recognition method based on unsupervised clustering and spatiotemporal deep network

【技术实现步骤摘要】
一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
本专利技术属于视频语义事件识别领域,涉及运动模式提取,时间域特征建模,度量距离关系实现无监督数据标注,具体涉及基于层次聚类算法实现类别基准特征计算,基于CNN网络实现运动场图像特征提取和基于LSTM网络实现群体行为识别,提出了一种用于篮球视频群体活动识别的聚类时空域网络模型。
技术介绍
计算机视觉作为当今人工智能热门的研究领域之一,通过对摄像机和电脑模拟人类视觉对目标进行识别、跟踪、测量等,并通过识别和分析做进一步的图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。视频语义识别是该中重要的研究方向,在现实生活中有着十分广泛的应用领域与研究价值,如视频监控、体育赛事转播等。近年来,伴随电子信息技术的飞速发展,计算机在计算能力和存储能力等方面取得了突飞猛进的进步,同时深度学习算法和高性能网络框架的提出,使得视频语义事件识别的广泛发展成为可能。本专利技术中的视频语义事件识别方法主要针对篮球视频中的语义事件识别任务。在篮球视频中,一个完整的语义事件由群体活动(3分球,上篮,罚篮等)与活动得分情况(球进或没进)组成。对于群体活动识别,运动模式是一个有效的判别特征,球员的运动模式以及镜头的变化规律在不同群体活动中呈现出不同的特点。然而不同的群体活动之间,如图2所示,也存在相似的运动特征。因此用相同的监督信号标注每组中的全部视频帧是不合理的,这样忽视了不同群体活动之间的相关性。本专利技术提出了一种基于聚类的运动场标签生成方法。对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型,可以更有效地表示运动场的特征。最后,将CNN模型的输出特征输入到LSTM结构中进行语义事件识别,得到完整的篮球语义事件识别结果。基于卷积神经网络的方法是目前视频语义事件识别的主流算法框架。Lan等人在2012年发表的文章“Discriminativelatentmodelsforrecognizingcontextualgroupactivities.”中提出利用一个潜在的变量框架联合提取了群体-人交互模式和人-人交互模式,探索场景中的进行多层次交互。Amer等人在2014发表的文章“Hierarchicalrandomfieldforcollectiveactivityrecognitioninvideos.”中提出了一种用于高阶节奏依赖关系建模的分层随机场结构。随着近年来深度学习算法的发展,基于深度神经网络的结构化模型成为群体识别的主流解决方案。Wang等人在2018发表的文章“Recurrentmodelingofinteractioncontextforcollectiveactivityrecognition.”中提出了一种通过LSTM结构实现多级特征提取的方案,捕获了用于群体活动识别的层次交互信息。Ramanathan等人在2016发表文章“Detectingeventsandkeyactorsinmulti-personvideos.”中提出了一种基于注意的循环框架,重点研究篮球场景中语义事件定位和识别。Qi等人在2018年发表的文章“stagnet:Anattentivesemanticrnnforgroupactivityrecognition.”中提出了一个专注的RNN框架,将时空注意力和语义图融合在一起,用于关键个体和框架推理。
技术实现思路
本专利技术的目的是提供一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法。本专利技术的网络框架如图1所示。首先利用PWC-Net深度学习模型实现帧间光流场估计,在光流场的基础上提取运动特征直方图,随后基于运动特征直方图采用层次聚类算法实现类别基准特征计算。通过计算运动特征直方图与基准特征集合的距离关系,实现无监督数据标注。基于无监督聚类生成的监督信号,训练CNN网络实现运动场图像特征提取,随后将多个时间节点CNN的输出特征序列输入到LSTM网络,实现时间域特征建模与群体行为识别。本专利技术的具体技术方案和步骤介绍如下:1、运动场特征表达运动场是运动信息表示和结构化数据建模的理想数据形式。本专利技术用光流来表示运动场。本专利技术中使用Sun,Deqing等人在2018年“PWC-Net:CNNsforopticalflowusingpyramid,warping,andcostvolume.”文章中提出的方法估计帧间光流。PWC-Net是一种用于光流估计的端到端卷积神经网络,在估计精度和计算成本上有着显著优越性。PWC-Net估计的光流场包含两个通道,分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移。本专利技术设计运动特征直方图特征来描述运动数据,根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化,用9个类别表达量化空间。对运动场中所有量化点进行类别统计,提出统计特征运动特征直方图。运动特征直方图表达了不同类别的分布。为更好地表达图片信息,对图片进行分块,分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图。2、基于无监督聚类的标签生成基于提取的运动特征直方图进行层次聚类,取训练集中的5场比赛视频做层次聚类,对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别。对于任意一张输入图片,计算其运动特征直方图,然后和每个类别的基准特征比较,计算运动特征直方图和各类基准特征的余弦距离,余弦距离数值最小所对应的基准特征类即为图片所属类,基准特征类标签即为图片标签,以此实现图片自动标注标签。3、基于LSTM的群体活动识别方法本专利技术采用ConvLSTM结构进行时空数据建模和群体活动识别。利用VGG-11结构,在每一个卷积层之后都使用batchnormalization层来表示运动场的特征。通过基于无监督聚类的标签生成方法,确定每个输入运动场的监督信号。通过深度神经网络结构,提取运动场的语义级特征表示,进一步进行时间建模。提取VGG-11网络中第二个全连接层的特征向量作为运动场的表示。然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合,进一步进行群体活动推理。与标准的RNN结构不同的是,LSTM结构依赖于独特的记忆单元和门操作来判断每个时刻节点特征的重要程度,这些特征保留了区分的特征,而忽略了冗余和无关的信息。附图说明图1为基于无监督聚类与时空域深度网络相结合的语义事件识别整体框架;图2为运动场中像素点的量化规则示意图;图3为聚类结果的可视化结果示意图;具体实施方式本专利技术提出了一种无监督聚类与时空域深度网络相结合的方法,实现篮球视频语义事件识别。本专利技术的具体技术方案和步骤介绍如下:1、数据集选取本专利技术中的数据采用的是斯坦福大学李飞飞教授团队公开的NCAA篮球数据集。数据集共包含250场NCAA篮球比赛视频,其中212场比赛作为训练集,12场作为验证集以及33场作为测试集。NCAA数据集中定义了6种类型的群体活动,包括3分球、2分球、罚球、上篮、扣篮和抢断。每一项活动的起点和终止都是通过众源平台手工标注的,视频段的长度平均为32帧左本文档来自技高网
...

【技术保护点】
1.一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法,其特征在于,包括以下步骤:1)运动场特征表达运动场是运动信息表示和结构化数据建模的理想数据形式;用光流来表示运动场;PWC‑Net估计的光流场包含两个通道,分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移;设计运动特征直方图特征来描述运动数据,根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化,用9个类别表达量化空间;对运动场中所有量化点进行类别统计,提出统计特征运动特征直方图;运动特征直方图表达了不同类别的分布;对图片进行分块,分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图;2)基于无监督聚类的标签生成基于提取的运动特征直方图进行层次聚类,取训练集中的几场比赛视频做层次聚类,对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别;对于任意一张输入图片,计算其运动特征直方图,然后和每个类别的基准特征比较,计算运动特征直方图和各类基准特征的余弦距离,余弦距离数值最小所对应的基准特征类即为图片所属类,基准特征类标签即为图片标签,以此实现图片自动标注标签;3)基于LSTM的群体活动识别方法采用ConvLSTM结构进行时空数据建模和群体活动识别;利用VGG‑11结构,在每一个卷积层之后都使用batch normalization层来表示运动场的特征;通过基于无监督聚类的标签生成方法,确定每个输入运动场的监督信号;通过深度神经网络结构,提取运动场的语义级特征表示,进一步进行时间建模;提取VGG‑11网络中第二个全连接层的特征向量作为运动场的表示;然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合,进一步进行群体活动推理。...

【技术特征摘要】
1.一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法,其特征在于,包括以下步骤:1)运动场特征表达运动场是运动信息表示和结构化数据建模的理想数据形式;用光流来表示运动场;PWC-Net估计的光流场包含两个通道,分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移;设计运动特征直方图特征来描述运动数据,根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化,用9个类别表达量化空间;对运动场中所有量化点进行类别统计,提出统计特征运动特征直方图;运动特征直方图表达了不同类别的分布;对图片进行分块,分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图;2)基于无监督聚类的标签生成基于提取的运动特征直方图进行层次聚类,取训练集中的几场比赛视频做层次聚类,对每个类别中的特征取平均值作为这个类别的基准特征,基准特征可以很好的代表这个类别;对于任意一张输入图片,计算其运动特征直方图,然后和每个类别的基准特征比较,计算运动特征直方图和各类基准特征的余弦距离,余弦距离数值最小所对应的基准特征类即为图片所属类,基准特征类标签即为图片标签,以此实现图片自动标注标签;3)基于LSTM的群体活动识别方法采用ConvLSTM结构进行时空数据建模和群体活动识别;利用VGG-11结构,在每一个卷积层之后都使用batchnormalization层来表示运动场的特征;通过基于无监督聚类的标签生成方法,确定每个输入运动场的监督信号;通过深度神经网络结构,提取运动场的语义级特征表示,进一步进行时间建模;提取VGG-11网络中第二个全连接层的特征向量作为运动场的表示;然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合,进一步进行群体活动推理。2.根据权利要求1所述的方法,其特征在于运动场特征表达具体为:通过端到端深度网络;输入数据为连续篮球视频帧,图片大小为490*360和720*1280两种规格,输出的光流图大小与输入数据尺寸相同;在输出的光流场数据基础上进行彩色编码,即将光流场幅度值转化为三通道[0-255]RGB图像;设计运动特征直方图特征来描述运动数据...

【专利技术属性】
技术研发人员:毋立芳李则昱杨洲简萌
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1