一种基于多模态信息融合的排球群体行为识别方法技术

技术编号:24855039 阅读:56 留言:0更新日期:2020-07-10 19:08
一种基于多模态信息融合的排球群体行为识别方法应用于计算机视觉群体行为识别领域。由于在体育分析,自动视频监控系统,人机交互应用,视频推荐系统等方面的广泛应用,群体行为识别任务备受关注。对于多人场景中的群体行为识别,目标之间以及目标和运动模式之间的关系建模能够提供有判别力的视觉线索。本发明专利技术旨在利用将图像目标间的关系以及运动模式作为多模态信息引入,然后利用序列模型GRU对这些信息进行有效编码和全局推理。最后,基于注意力机制,从时域角度整合了推断模块的得到的信息并获取最终结果。该方法实现了针对排球数据集中的群体行为识别,并通过测试验证了方法可行性,具有重要应用价值。

【技术实现步骤摘要】
一种基于多模态信息融合的排球群体行为识别方法
本专利技术应用于计算机视觉群体行为识别领域,具体涉及光流特征提取,表观特征提取、循环神经网络、注意力机制等数字图像处理与深度学习技术。该方法以排球广播体育视频作为输入图像,通过深度模型提取目标图像的表观特征、运动模式特征和关系特征,然后使用循环神经网络以及注意力机制进行特征融合,汇总多模态信息结果后实现了多人群体的行为识别任务。
技术介绍
群体行为识别是一个综合性的分析任务,在体育智能分析,自动视频监控,人机交互应用,视频推荐系统等方面应用广泛,因此备受关注。为了使计算机智能地理解多人场景中发生的行为,所设计的模型不仅需要描述每个目标在情景中的个体行为,还需要推断他们的群体行为。其中如何准确捕捉人物之间相应的关系并执行关系推断的能力对于理解多人群体行为至关重要。然而,对人物之间的关系进行建模是一个很有挑战性的任务,因为我们通常只关注个体行为和群体行为,而没有充分利用潜在的交互信息。因此我们期望从表观特征和相对位置以及运动模式信息推断参与目标人员之间的关系。因此,当我们为群体行为理解设计有效的深度模型本文档来自技高网...

【技术保护点】
1.一种基于多模态信息融合的排球群体行为识别方法,其特征在于,设计应用了以下几个模块:表观特征提取模块、关系特征提取模块、运动模式特征提取模块、全局推理模块和时域融合模块;/n将选取好的排球比赛视频图像及其个体标注框作为输入,表观特征提取模块对其进行个体特征提取,输出每张图像每个个体的表观特征;关系特征提取模块以个体表观特征和个体矩形框作为输入,输出用于表现个体间交互关系的关系特征;运动模式特征提取模块以视频图像作为输入,输出用于表现图像全局运动状态的运动模式特征;之后通过全局推理模块和时域融合模块依次对个体表观特征、关系特征以及运动模式特征进行特征融合,结合融合后的特征进行分析,最终输出排球...

【技术特征摘要】
1.一种基于多模态信息融合的排球群体行为识别方法,其特征在于,设计应用了以下几个模块:表观特征提取模块、关系特征提取模块、运动模式特征提取模块、全局推理模块和时域融合模块;
将选取好的排球比赛视频图像及其个体标注框作为输入,表观特征提取模块对其进行个体特征提取,输出每张图像每个个体的表观特征;关系特征提取模块以个体表观特征和个体矩形框作为输入,输出用于表现个体间交互关系的关系特征;运动模式特征提取模块以视频图像作为输入,输出用于表现图像全局运动状态的运动模式特征;之后通过全局推理模块和时域融合模块依次对个体表观特征、关系特征以及运动模式特征进行特征融合,结合融合后的特征进行分析,最终输出排球群体行为识别的结果。


2.根据权利要求1所述的方法,其特征在于,各模块的内容如下:
1).表观特征提取模块
第一个模块是表观特征提取模块,提取图像中各目标个体的表观特征作为一种多模态信息;这一模块根据目标图像中各个体的位置标注信息,通过使用已训练的深度卷积神经网络模型提取各目标个体即球员的表观特征;个体表观特征是基于卷积神经网络对图像RGB信息分布抽象提取而成的用于表达图像语义信息的特征;
首先使用已训练的深度卷积神经网络模型从排球视频图像中提取全图特征,然后应用Mask-RCNN算法模型中的RoI-Align机制处理每个参与目标(actor)的候选框(boundingbox)与全图特征的对应关系,从而完成各目标个体的特征提取;之后,使用全连接层对特征进行向量对齐,通过全连接层以获得每个目标个体的D维表观特征向量;
在视频某一帧中目标个体数为N,则使用N×D维度的矩阵来表示所有目标的特征向量;其中N为目标的数量,D为关系特征大小;
2).关系特征提取模块
第二个模块是关系特征提取模块,提取图像中各目标个体的关系特征作为新模态的信息;首先使用边界框目标回归(boundingboxregressiontarget)公式对图像中各目标矩形框的几何坐标提取几何信息特征,然后对所提取的几何位置信息使用RelationNetwork算法模型中的关系建模方法对几何信息以及表观信息进行关系建模和特征表达;目标间关系特征基于目标间的大小关系以及几何位置关系,通过一系列非线性变换以及注意力机制提取出特征;
首先基于边界框目标回归公式将图像中任意两个目标间的几何特征嵌入到K维度的高维空间进行表达,其中目标个体的几何位置标注由公开数据集“Volleyball”提供;之后将高维表达的几何信息与表观特征信息结合,通过权重训练的操作执行了一系列非线性变换;每两个目标之间的关系表达被输出成为D维度的特征向量;
3).运动模式特征提取模块
第三个模块是运动模式特征提取模块,提取出图像的运动模式特征作为一种新模态的信息;将目标图像的光流量化图送入训练好的残差网络分类模型,所得特征是对整个图像场景的运动模式进行表达的特征向量;
首先,使用光流提取网络PWC-NET对选取的相邻视频图像进行光流图提取,得到用于表达图像运动的光流图像;然后,对光流图进行量化处理,将其用于表示像素运动程度的数值映射到范围0-255的颜色空间,获得量化光流图;最后,将量化光流图送入训练好的深度分类模型,获得图像场景的运动模式表达特征.最终每张图像输出维度为D的特征向量;
4).全局推理模块
第四个模块是全局推理模块,其功能是将上述模块所提取的多模态特征信息整合;将多模态信息送入已训练完成的循环神经网络序列模型GRU,实现对这些信息的有效编码和全局推理,将个体表观特征、关系特征以及图像运动模式特征进行融合;
提出一组特征融合模块Opticalflow-GRU(简称Opt-GRU)和Relation-GRU,用来编码不同的特征来传递消息,从而实现语义信息全局推理的功能;首先,汇总多模态信息,将表观特征fA、关系特征fR和运动模式特征fO进行竖向拼接变形,以符合GRU的输入格式;然后,使用表观特征fA作为两个GRU模块的隐藏单元输入以用于关系推理,并分别对Relation-GRU和Opt-GRU输入关系特征提取模块和运动模式特征提取模块所各自输出的多模态特征信息,使用平均池化操作融合两个GRU所输出的特征向量;最后,还需要一次最大值池化操作,得到聚合整理的帧级别(frame-level)的全局信息特征;使得视频中每一帧图像得到维度为D的全局推理特征;
5).时域融合模块
第五个模块是时域融合模块,以时域的角度对视频各帧特征进行融合;该模块通过注意力机制的算法,从时域角度整合了全局推理模块所得到的信息,并输出最终识别结果
将选取好的部分排球视频图像依次送入,分别提取其表观特征、关系特征以及运动模式特征,在全局推理模块中使用GRU模型获得全局推理特征;对于一个排球群体性为,视频中每一帧均可由此获得帧级别的全局特征;将同一群体事件下所得到的全部全局特征输入到注意力层(attentionlayer),这里遵循的self-attention的参数设置,将帧级别(frame-level)的特征降维融合成序列级别(sequential-level)的特征;最后,将融合特征送入训练好的分类网络层(SoftmaxLayer)中,最终输出排球群体行为识别的结果。


3.根据权利要求1所述的方法,其特征在于,具体实施步骤如下:
基于“Volleyball”数据集所提供的标注,其群体事件分为以下8个类别:左侧一传(l_pass)、左侧二传(l_set)、左侧扣球(l_spike)、左侧得分(l_winpoint)、右侧一传(r_pass)、右侧二传(r_set)、右侧扣球(r_spike)、右侧得分(r_winpoint);
1).表观特征提取模块
在Volleyball数据集中,每个视频序列由21张有球员位置标注的比赛视频帧组成,数据集中提供每个球员目标的矩形框标注,在训练网络模型的时候只采用关键帧之前的5帧以及之后的4帧,共计十帧图像;使其作为一个排球群体性为事件的源识别图像;
在训练提取表观特征的深度网络过程中,选用了resnet-50作为骨干网络,保证特征提取有效性的同时也减小了计算开销;骨干网络对目标图像提取了多尺度特征后使用roi-align的处理算法来整合不同目标个体的位置坐标信息,使模型在这里分别得到各球员的表观特征;最后使用最大值池化的方法整合各目标个体的特征,将整合后的特征使用softmax层进行分类;在训练过程中,骨干网络的emb_features参数设置为2048,表观特征尺寸设置为1024;
用于训练的数据参照volleyball官方给定的训练、验证、测试集进行划分,共训练200轮,学习率设置为0.00001;
在提取特征的过程中,对应个别图像帧中actor数目不一致的现象,设计了补齐的方法,用于提取维度相同的表观特征;即在目标个数少于N的图像中,在Volleyball数据集中N为12,使用已有目标中长边最大的候选框按顺序依次复制补齐;然后使用训练好的模型对其进行特征提取,并离线保存;实现了每张图片中12*1024维度的表观特征提取;
2).关系特征提取模块
在Volleyball数据集中,每一帧图像中包括每个球员目标(actor)的位置坐标信息,以此通过表观特征提取模块获得了各个球员的表观特征fA...

【专利技术属性】
技术研发人员:毋立芳付亨简萌徐得中袁元
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1