一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法技术

技术编号:19215999 阅读:36 留言:0更新日期:2018-10-20 06:49
一种基于融合领域知识和深度多阶特征的篮球比赛语义事件识别方法,实现对篮球比赛中语义事件的自动识别。随着计算机视觉理论与深度神经网络的不断发展,基于内容的视频语义事件分析技术不断完善。该方案首先基于篮球领域先验知识对篮球语义事件划分为事件准备阶段,事件发生阶段和事件后续阶段。然后提取视频序列的全局和群体运动模式,随后通过分层网络对多阶段网络提取的特征进行融合,最后通过长短期记忆网络实现时域信息整合,实现篮球语义事件的识别。此发明专利技术对大规模篮球视频数据的智能化存储与检索以及篮球视频专业自动化战术分析奠定了基础。

【技术实现步骤摘要】
一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
本专利技术属于计算机视觉的视频语义事件识别领域,涉及基于深度神经网络的时空域特征提取与融合,具体涉及基于篮球领域知识的视频阶段划分以及基于卷积神经网络CNN和长短期记忆网络LSTM的特征提取与融合,提出了一种基于领域知识的多阶段群体行为识别的深度学习方法。
技术介绍
视频语义事件识别是视频分析与理解领域中的关键技术之一。随着深度神经网络的不断发展以及科学计算设备的更新换代,基于深度学习的视频内容分析的方法发展迅速,应用领域不断得以拓展。主要应用领域有:智能视频监控领域,例如基于智能化视频语义分析技术实现公共场所的实时监控,突发事件预警等;视频检索与存储领域,比如应用视频语义分析技术实现大规模视频数据的智能化存储,审查以及检索等;体育视频分析领域,基于对体育视频的语义分析,实现对于体育赛事的辅助训练以及战术分析等。本专利技术中的视频语义事件分类方法主要针对篮球视频中的事件分类。篮球赛事属于一种有计划的高协同群体行为,视频中的事件由多级别语义信息组成,一个完整的事件可以表达为不同运动员个体行为的集合,同时也可以表达为运动员群体之间运动模式的变化规律。通过对视频帧之间的光流图进行提取,即可获得群体和全局的融合运动模式(globalandcollectivemotionpatternGCMP),如图1所示。接着对光流域图像进行空间域特征提取,并将空间域特征在时间域上进行整合,得到运动模式的时空域特征表达进行事件分类。在一个完整的篮球语义事件中,可以划分为三个不同的阶段。即事件准备阶段、事件发生阶段和事件后续阶段。本专利技术通过不同事件阶段之间的特征分层提取与融合建模,从而对篮球比赛中关键运动模式进行表达,主要目的是实现篮球语义事件的识别。在视频人体动作语义理解的方法中,卷积神经网络同样凭借其强大的时空域整合能力,成为了主流方法之一。其中比较有代表性的是双流(双通道)卷积神经网络结构,例如Simonyan等人在2014年的文章“Two-streamconvolutionalnetworksforactionrecognitioninvideos”中通过训练两个独立的,分别针对色彩空间(RGB视频帧)和运动空间(光流图)的卷积神经网络,对空间域和时间域的信息进行整合,建立了时空域联合建模的计算模型。复旦大学Wu等人在2015年的“FusingMulti-StreamDeepNetworksforVideoClassification”文章中提出在动作识别深度模型中加入了循环神经网络结构(长短期记忆网络LSTM),并充分利用视频中的多模态信息(色彩空间,光流空间,声音谱空间)进行联合建模。2016年,清华大学Zhu等人在“AKeyVolumeMiningDeepFrameworkforActionRecognition”文章中提出了一种基于关键视频序列挖掘的深度框架,利用“无监督关键序列决策”的方法来从整体视频序列中采样得到高分辨能力的短序列。网络通过选择性优化选法,在前向传播时对关键序列进行判决,在反向传播过程中使用提取到的关键序列对模型参数进行更新。由于此方法深入挖掘了不同类别动作之间的类间差异,去除掉了类间相似的冗余信息,使模型能够充分的学习样本空间中的类间差异性,从而大大加快的模型的收敛速度与模型的识别效率。2017年,Wang等人在文章“SpatiotemporalPyramidNetworkforVideoActionRecognition”文章中提出在双流卷积神经网络思想的基础上,提出了一种时空金字塔模型,在模型中引入了时空双线性插值运算,通过多层融合的结构使得空间域信息和时间域信息连接更加紧密,同时通过注意力机制对关键动作的空间位置赋予了更大的权值,提升了模型的运算效率以及鲁棒性。本专利技术首先根据篮球比赛中的领域知识对事件进行阶段划分,随后结合深度学习模型提出了时空域联合建模CNN+LSTM框架,实现篮球视频中的语义事件识别。
技术实现思路
本专利技术的目的是提供一种基于篮球领域知识和深度学习分层模型的篮球视频语义事件识别方法。本专利技术的分层深度模型框架如图2所示。首先根据篮球比赛中的领域知识将一个完整的篮球语义事件划分为事件准备阶段、事件发生阶段和事件后续阶段。随后提取事件发生阶段视频序列的全局与群体运动模式,此部分特征通过光流图进行表达。将提取出的全局与群体运动模式通过卷积神经网络CNN提取空间域特征,随后应用长短期记忆网络LSTM整合空间域特征,实现基于事件发生阶段的五类事件分类(三分球,抢断,罚篮,扣篮,两分球+上篮),具体框架如图3所示。针对一些事件发生阶段类间运动模式相似度较高的事件(上篮和两分球),此部分事件在事件发生阶段不做判别,而是合并为一个事件(两分球+上篮)进行分类。随后,将此部分事件的事件准备阶段的全局与群体运动模式序列输入到CNN+LSTM网络中进行两类事件(上篮和两分球)判别,最后将两阶段的特征进行融合得到六类事件的预测结果。对于事件成功或失败属性的判别,通过事件后续阶段的视频序列RGB空间深度特征提取与分类,实现对事件成功失败属性的预测,具体框架如图4所示。本专利技术的具体技术方案和步骤介绍如下:1、基于领域知识的篮球语义事件阶段划分在本专利技术中,为了充分对篮球语义事件进行特征提取与表达,根据篮球比赛中的领域知识,即一个完整的语义事件是由事件准备阶段、事件发生阶段和事件后续阶段所组成,每个阶段中呈现出了不同的空间特征以及运动模式。在事件准备阶段,球员会进行投篮准备动作,例如在上篮事件的准备动作阶段,球员会持球并向篮筐方向运动;在事件发生阶段,球员完成投篮动作,篮球出手并接触篮筐;在事件后续阶段,球员们的状态会根据篮球是否投进而有所差异,如果投篮成功,防守球员会去发球。如果投篮失败,双方运动员会继续冲抢篮板球。因此,基于以上篮球比赛的专业领域知识,将划分的事件阶段应用到不同的事件识别任务中,提出了多层深度网络模型,提升了模型对篮球语义事件识别的正确率。2、全局与群体运动模式提取篮球语义事件可以由两组运动员间的交互运动模式表达。与此同时,在篮球比赛转播视频中,镜头的运动模式在相同事件间具有较高的相似性。如图1所示,图中展示了来自于不同比赛的罚篮事件画面。不同比赛间的场地颜色以及球员队服的颜色具有较大的差异性。如果用分类器对RGB空间的视频序列直接进行分类具有较大的难度。然而,将RGB图像转换为光流图后,这些视觉层面的干扰就会大大降低了,这是由于光流图表达出的是相邻两帧图像的运动区域,而不是RGB图像本身的颜色属性。在本专利技术中使用光流图计算方法是Thomas等人在2004年“HighAccuracyOpticalFlowEstimationBasedonaTheoryforWarping”文章中提出的。3、基于卷积神经网络和长短期记忆网络(CNN+LSTM)的两阶段篮球语义事件分类方法本专利技术采用卷积神经网络和长短期记忆网络(CNN+LSTM)来实现多阶段篮球事件的预测,事件包括(三分球、两分球、上篮、罚篮、扣篮和抢断)。五类事件分类方法如图3所示,两类事件分类方法与五类事件分类方法相似,区别在于两类事件分类模型的输入数据是事件准备阶段本文档来自技高网
...

【技术保护点】
1.一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法,其特征在于,首先根据篮球比赛中的领域知识将一个完整的篮球语义事件划分为事件准备阶段、事件发生阶段和事件后续阶段;随后提取事件发生阶段视频序列的全局与群体运动模式,此部分特征通过光流图进行表达;将提取出的全局与群体运动模式通过卷积神经网络CNN提取空间域特征,随后应用长短期记忆网络LSTM整合空间域特征,实现基于事件发生阶段的五类事件分类即三分球,抢断,罚篮,扣篮,两分球+上篮;针对上篮和两分球,此部分事件在事件发生阶段不做判别,而是合并为一个事件进行分类;随后,将此部分事件的事件准备阶段的全局与群体运动模式序列输入到CNN+LSTM网络中进行上篮和两分球判别,最后将两阶段的特征进行融合得到六类事件的预测结果;对于事件成功或失败属性的判别,通过事件后续阶段的视频序列RGB空间特征提取与分类,实现对事件成功失败属性的预测。

【技术特征摘要】
1.一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法,其特征在于,首先根据篮球比赛中的领域知识将一个完整的篮球语义事件划分为事件准备阶段、事件发生阶段和事件后续阶段;随后提取事件发生阶段视频序列的全局与群体运动模式,此部分特征通过光流图进行表达;将提取出的全局与群体运动模式通过卷积神经网络CNN提取空间域特征,随后应用长短期记忆网络LSTM整合空间域特征,实现基于事件发生阶段的五类事件分类即三分球,抢断,罚篮,扣篮,两分球+上篮;针对上篮和两分球,此部分事件在事件发生阶段不做判别,而是合并为一个事件进行分类;随后,将此部分事件的事件准备阶段的全局与群体运动模式序列输入到CNN+LSTM网络中进行上篮和两分球判别,最后将两阶段的特征进行融合得到六类事件的预测结果;对于事件成功或失败属性的判别,通过事件后续阶段的视频序列RGB空间特征提取与分类,实现对事件成功失败属性的预测。2.根据权利要求1所述的识别方法,其特征在于,采用卷积神经网络和长短期记忆网络即CNN+LSTM来实现多阶段篮球事件的预测,事件包括三分球、两分球、上篮、罚篮、扣篮和抢断,两类事件分类模型的输入数据是事件准备阶段的视频序列的光流图像,输出是上篮和两分球的预测结果;五类事件分类模型的输入数据是事件发生阶段的视频序列光流图像,输出是五类事件预测结果;在测试阶段,输入一个标签未知的篮球事件视频序列,首先会将事件发生阶段的视频序列光流图像作为输入,通过CNN+LSTM事件五分类网络提取特征并进行事件分类;如果预测结果是三分球、罚篮、扣篮或者抢断,输出结果将直接作为当前事件的标签;如果五分类网络的输出结果是上篮+两分球,此部分数据的事件准备阶段的视频序列光流图像将会被输入到两事件分类网络中进行进一步的事件判别,区分出两分球和上篮事件;最终,通过两阶段篮球语义事件分类方法,将会得到完整的六类事件预测结果;将CNN与LSTM网络相结合,CNN首先提取出视频序列中每一帧图像的空间特征,随后,这些序列特征按时域顺序输入到LSTM网络单元中进行时域特征整合,最终得到视频序列时空域特征表达,并进行事件类型识别。3.根据权利要求1所述的...

【专利技术属性】
技术研发人员:毋立芳杨洲贺娇瑜简萌
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1