一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法技术

技术编号：22330662 阅读：47 留言：0更新日期：2019-10-19 12:22

一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法属于篮球视频中的语义事件自动识别领域。该方案首先利用光流估计方法，从连续视频帧中获得运动场属性。然后提取运动特征直方图(MCH)作为运动场表征的描述符。随后，提出了一种基于聚类的运动场标签生成方法。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型，可以更有效地表示运动场的特征。最后，将CNN模型的输出特征输入到LSTM结构中进行语义事件识别。此发明专利技术对篮球视频数据智能化管理、篮球技战术分析和自动转播等应用奠定了基础。

A basketball video group behavior recognition method based on unsupervised clustering and spatiotemporal deep network

全部详细技术资料下载

【技术实现步骤摘要】
一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
本专利技术属于视频语义事件识别领域，涉及运动模式提取，时间域特征建模，度量距离关系实现无监督数据标注，具体涉及基于层次聚类算法实现类别基准特征计算，基于CNN网络实现运动场图像特征提取和基于LSTM网络实现群体行为识别，提出了一种用于篮球视频群体活动识别的聚类时空域网络模型。
技术介绍
计算机视觉作为当今人工智能热门的研究领域之一，通过对摄像机和电脑模拟人类视觉对目标进行识别、跟踪、测量等，并通过识别和分析做进一步的图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。视频语义识别是该中重要的研究方向，在现实生活中有着十分广泛的应用领域与研究价值，如视频监控、体育赛事转播等。近年来，伴随电子信息技术的飞速发展，计算机在计算能力和存储能力等方面取得了突飞猛进的进步，同时深度学习算法和高性能网络框架的提出，使得视频语义事件识别的广泛发展成为可能。本专利技术中的视频语义事件识别方法主要针对篮球视频中的语义事件识别任务。在篮球视频中，一个完整的语义事件由群体活动(3分球，上篮，罚篮等)与活动得分情况(球进或没进)组成。对于群体活动识别，运动模式是一个有效的判别特征，球员的运动模式以及镜头的变化规律在不同群体活动中呈现出不同的特点。然而不同的群体活动之间，如图2所示，也存在相似的运动特征。因此用相同的监督信号标注每组中的全部视频帧是不合理的，这样忽视了不同群体活动之间的相关性。本专利技术提出了一种基于聚类的运动场标签生成方法。对每个类别中的特征取平均值作为这个类别的基准特征，基准特征可以很好的代...

【技术保护点】
1.一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法，其特征在于，包括以下步骤：1）运动场特征表达运动场是运动信息表示和结构化数据建模的理想数据形式；用光流来表示运动场；PWC‑Net估计的光流场包含两个通道，分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移；设计运动特征直方图特征来描述运动数据，根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化，用9个类别表达量化空间；对运动场中所有量化点进行类别统计，提出统计特征运动特征直方图；运动特征直方图表达了不同类别的分布；对图片进行分块，分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图；2）基于无监督聚类的标签生成基于提取的运动特征直方图进行层次聚类，取训练集中的几场比赛视频做层次聚类，对每个类别中的特征取平均值作为这个类别的基准特征，基准特征可以很好的代表这个类别；对于任意一张输入图片，计算其运动特征直方图，然后和每个类别的基准特征比较，计算运动特征直方图和各类基准特征的余弦距离，余弦距离数值最小所对应的基准特征类即为图片所属类，基准特征类标签即为图片标签，以此实现图片自...

【技术特征摘要】
1.一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法，其特征在于，包括以下步骤：1）运动场特征表达运动场是运动信息表示和结构化数据建模的理想数据形式；用光流来表示运动场；PWC-Net估计的光流场包含两个通道，分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移；设计运动特征直方图特征来描述运动数据，根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化，用9个类别表达量化空间；对运动场中所有量化点进行类别统计，提出统计特征运动特征直方图；运动特征直方图表达了不同类别的分布；对图片进行分块，分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图；2）基于无监督聚类的标签生成基于提取的运动特征直方图进行层次聚类，取训练集中的几场比赛视频做层次聚类，对每个类别中的特征取平均值作为这个类别的基准特征，基准特征可以很好的代表这个类别；对于任意一张输入图片，计算其运动特征直方图，然后和每个类别的基准特征比较，计算运动特征直方图和各类基准特征的余弦距离，余弦距离数值最小所对应的基准特征类即为图片所属类，基准特征类标签即为图片标签，以此实现图片自动标注标签；3）基于LSTM的群体活动识别方法采用ConvLSTM结构进行时空数据建模和群体活动识别；利用VGG-11结构，在每一个卷积层之后都使用batchnormalization层来表示运动场的特征；通过基于无监督聚类的标签生成方法，确定每个输入运动场的监督信号；通过深度神经网络结构，提取运动场的语义级特征表示，进一步进行时间建模；提取VGG-11网络中第二个全连接层的特征向量作为运动场的表示；然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合，进一步进行群体活动推理。2.根据权利要求1所述的方法，其特征在于运动场特征表达具体为：通过端到端深度网络；输入数据为连续篮球视频帧，图片大小为490*360和720*1280两种规格，输出的光流图大小与输入数据尺寸相同；在输出的光流场数据基础上进行彩色编码，即将光流场幅度值转化为三通道[0-255]RGB图像；设计运动特征直方图特征来描述运动数据...

【专利技术属性】
技术研发人员：毋立芳，李则昱，杨洲，简萌，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人