一种基于多属性学习的体育视频智能分类方法及系统技术方案

技术编号:39834444 阅读:4 留言:0更新日期:2023-12-29 16:17
本发明专利技术公开了一种基于多属性学习的体育视频智能分类方法及系统,包括,获取目标体育视频信息,通过预处理后的目标体育视频信息进行关键帧提取,将关键帧进行聚类分析获取关键帧序列,设定体育视频图像关键帧特征库,通过特征编码获取关键帧序列的特征信息生成多模态属性;提取图像语义特征,生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示导入二分类网络,获取分类结果

【技术实现步骤摘要】
一种基于多属性学习的体育视频智能分类方法及系统


[0001]本专利技术涉及视频分类
,更具体的,涉及一种基于多属性学习的体育视频智能分类方法及系统


技术介绍

[0002]随着网络视频资源的爆炸性增长,对视频内容进行自动分析的应用需求不断扩大

在安全

监控

智能家居

自动驾驶和体育视频分析等领域,视频内容理解和识别技术已经展示出了广泛的应用前景

而体育视频占据了电视广播的很大一部分,是受众群体规模最大的视频类型

将体育视频按运动类别进行索引是进行赛后分析

教练战术形成等后续处理的重要手段,也是实现体育视频摘要

语义标注和检索的基础

[0003]视频分类是指预测给定视频所属的类别,但由于视频序列的动态性及与之相关的光照条件

背景

摄像机角度

是否有遮挡

是否有难以区分的场景特征等变化,可能造成较大的类内差异和类间相似性,故视频分类问题要比单一图像分类复杂得多

由于体育视频中运动行为复杂变化较多,运动场景同样复杂多变,同一运动类型具有不同的表达

以往按照人工标注的形式管理

分类体育视频,不但浪费较多的人力资源,同时因为手工标注存在大量人为主观因素,分类精度不高

因此针对当前分类体育视频结果主观性强

区分正确率低等缺陷,如何提取体育视频的高精度的特征描述符,提升分类准确率是需要解决的问题


技术实现思路

[0004]为了解决上述技术问题,本专利技术提出了一种基于多属性学习的体育视频智能分类方法及系统

[0005]本专利技术第一方面提供了一种基于多属性学习的体育视频智能分类方法,包括:获取目标体育视频信息,将所述目标体育视频信息进行预处理,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列;设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性;通过所述多模态属性提取图像语义特征,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果

[0006]本方案中,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列,具体为:获取目标体育视频信息进行预处理,通过预处理后的帧图像序列进行特征提取,将帧图像信息进行色度空间转换,将所述色度空间进行量化,提取帧图像信息的
HSV
特征作为颜色特征;
另外,将所述帧图像信息进行灰化处理,获取对应的灰度共生矩阵,根据所述灰度共生矩阵获取帧图像信息的纹理特征;引入注意力机制为所述颜色特征及纹理特征进行融合,利用融合后的特征进行不同帧图像信息之间的相似度,根据所述相似度偏差获取帧图像信息之间的均值和标准差;根据所述均值和标准差获取阈值信息,根据所述阈值信息及相似度偏差进行判断,根据判断结果读取关键帧,将所述关键帧进行聚类分析,根据聚类有效性确定聚类簇数;根据所述聚类簇数随机选取初始聚类中心,根据与初始聚类中心的距离将其他关键帧进行指派,经过迭代聚类后生成聚类结果,根据图像质量在不同聚类结果中获取预设数量的关键帧,生成简化后的关键帧序列

[0007]本方案中,设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性,具体为:将目标体育视频对应的关键帧序列划分为视频时间序列及音频时间序列,利用卷积网络获取视频时间序列中各帧的全局特征,利用所述全局特征获取各帧的目标区域;在所述目标区域中进行局部特征提取,根据所述局部特征进行运动人像及运动器械的识别,并通过
RPN
网络对特征图进行卷积,获取不同尺度的区域建议框,并进行锚框回归;将所述区域建议框的特征图导入全连接层,根据所述全连接层判断是否含有运动人像及运动器械,根据判断结果生成精准锚框,基于锚框中的特征图匹配时序生成视频特征;将所述语音时间序列进行分帧,并将分帧后的语音时间序列利用短时傅里叶变换生成频谱特征,根据所述频谱特征映射到预设范围的梅尔滤波器获取梅尔频谱,根据所述梅尔频谱获取音频特征;基于所述视频特征及音频特征进行时间同步构建目标体育视频信息的关键帧特征库,将所述视频特征及音频特征进行特征编码,引入注意力机制进行特征融合获取键帧序列对应的特征矩阵;根据所述特征矩阵表征目标体育视频对应关键帧序列的多模态属性

[0008]本方案中,通过所述多模态属性提取图像语义特征,具体为:根据关键帧序列的多模态属性,将所述多模态数据进行扁平化处理生成对应的特征矢量,利用门控结构获取特征矢量的上下文信息,构建两层全连接层,进行正则化处理防止过拟合;在全连接层中通过所述上下文信息获取对应上下文语义,构建
SVM
分类器,通过数据检索获取带类别标签的体育视频数据集,对所述
SVM
分类器进行训练;利用训练后的
SVM
分类器根据所述特征矢量获取各类别标签的权重信息,将所述权重信息与所述上下文语义进行卷积,获取关键帧序列对应帧级别的图像语义特征

[0009]本方案中,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入,具体为:根据所述图像语义特征生成包含自身特征信息的语义标签,将目标体育视频信息中关键帧序列对应的语义标签映射到低维向量空间,在所述低维向量空间中将所述语义标
签作为节点生成异构图;获取各节点对应关键帧中目标区域对应的特征图,根据所述特征图确定主成分投影方向,根据所述主成分投影方向获取关键帧对应的投影矩阵,通过所述投影矩阵获取空间特征信息作为节点附加特征;根据注意力机制获取各节点的注意力分数,表征附加特征对不同分类类别的重要性,将所述注意力分数与节点对应的语义标签结合,获取各节点的初始注意力特征;利用图卷积网络对所述异构图进行表示学习构建体育视频分类模型,获取关键帧序列对应的图结构数据,根据所述图结构数据获取邻接矩阵;通过多头注意力机制获取邻接矩阵中各节点的自注意特征,根据所述自注意力特征结合所述初始注意力特征进行加权聚合,更新节点表示,根据消息传递及邻居聚合获取关键帧序列最终的语义标签嵌入表示

[0010]本方案中,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果,具体为:根据所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多属性学习的体育视频智能分类方法,其特征在于,包括以下步骤:获取目标体育视频信息,将所述目标体育视频信息进行预处理,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列;设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性;通过所述多模态属性提取图像语义特征,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果
。2.
根据权利要求1所述的一种基于多属性学习的体育视频智能分类方法,其特征在于,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列,具体为:获取目标体育视频信息进行预处理,通过预处理后的帧图像序列进行特征提取,将帧图像信息进行色度空间转换,将所述色度空间进行量化,提取帧图像信息的
HSV
特征作为颜色特征;另外,将所述帧图像信息进行灰化处理,获取对应的灰度共生矩阵,根据所述灰度共生矩阵获取帧图像信息的纹理特征;引入注意力机制为所述颜色特征及纹理特征进行融合,利用融合后的特征进行不同帧图像信息之间的相似度,根据所述相似度偏差获取帧图像信息之间的均值和标准差;根据所述均值和标准差获取阈值信息,根据所述阈值信息及相似度偏差进行判断,根据判断结果读取关键帧,将所述关键帧进行聚类分析,根据聚类有效性确定聚类簇数;根据所述聚类簇数随机选取初始聚类中心,根据与初始聚类中心的距离将其他关键帧进行指派,经过迭代聚类后生成聚类结果,根据图像质量在不同聚类结果中获取预设数量的关键帧,生成简化后的关键帧序列
。3.
根据权利要求1所述的一种基于多属性学习的体育视频智能分类方法,其特征在于,设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性,具体为:将目标体育视频对应的关键帧序列划分为视频时间序列及音频时间序列,利用卷积网络获取视频时间序列中各帧的全局特征,利用所述全局特征获取各帧的目标区域;在所述目标区域中进行局部特征提取,根据所述局部特征进行运动人像及运动器械的识别,并通过
RPN
网络对特征图进行卷积,获取不同尺度的区域建议框,并进行锚框回归;将所述区域建议框的特征图导入全连接层,根据所述全连接层判断是否含有运动人像及运动器械,根据判断结果生成精准锚框,基于锚框中的特征图匹配时序生成视频特征;将所述音频时间序列进行分帧,并将分帧后的音频时间序列利用短时傅里叶变换生成频谱特征,根据所述频谱特征映射到预设范围的梅尔滤波器获取梅尔频谱,根据所述梅尔频谱获取音频特征;基于所述视频特征及音频特征进行时间同步构建目标体育视频信息的关键帧特征库,将所述视频特征及音频特征进行特征编码,引入注意力机制进行特征融合获取键帧序列对应的特征矩阵;
根据所述特征矩阵表征目标体育视频对应关键帧序列的多模态属性
。4.
根据权利要求1所述的一种基于多属性学习的体育视频智能分类方法,其特征在于,通过所述多模态属性提取图像语义特征,具体为:根据关键帧序列的多模态属性,将所述多模态属性进行扁平化处理生成对应的特征矢量,利用门控结构获取特征矢量的上下文信息,构建两层全连接层,进行正则化处理防止过拟合;在全连接层中通过所述上下文信息获取对应上下文语义,构建
SVM
分类器,通过数据检索获取带类别标签的体育视频数据集,对所述
SVM
分类器进行训练;利用训练后的
SVM
分类器根据所述特征矢量获取各类别标签的权重信息,将所述权重信息与所述上下文语义进行卷积,获取关键帧序列对应帧级别的图像语义特征
。5.
根据权利要求1所述的一种基于多属性学习的体育视频智能分类方法,其特征在于,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入,具体为:根据所述图像语义特征生成包含自身特征信息的语义标签,将目标体育视频信息中关键帧序列对应的语义标签映射到低维向量空间,在所述低维向量空间中将所述语义标签作为节点生成异构图;获取各节点对应关键帧中目标区域对应的特征图,根据所述特征图确定主成分投影方向,根据所述主成分投影方向获取关键帧对应的投影矩阵,通过所述投影矩阵获取空间特征信息作为节点附加特征;根据注意力机制获取各节点的注意力分数,表征附加特征对不同分类类别的重要性,将所述注意力分数与节点对应的语义标签结合,获取各节点的初始注意力特征;利用图卷积网络对所述异构图进行表示学习构建体育视频分类模型,获取关键帧序列对应的图结构数据,根据所述图结构数据获取邻接矩阵;通过多头注意力机制获取邻接矩阵中各节点的自注意力特征,根据所述自注意力特征结合所述初始注意力特征进行加权...

【专利技术属性】
技术研发人员:赵鑫隋阳岳平安
申请(专利权)人:深圳市致尚信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1