当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于视频序列的人体动作识别方法技术

技术编号:39494499 阅读:9 留言:0更新日期:2023-11-24 11:20
本发明专利技术公开了一种基于视频序列的人体动作识别方法

【技术实现步骤摘要】
一种基于视频序列的人体动作识别方法、系统及存储介质


[0001]本专利技术属于计算机视觉领域,具体涉及一种基于视频序列的人体动作识别方法

系统及存储介质


技术介绍

[0002]随着科技的发展和人工智能的普遍,多媒体信息呈现出爆炸式增长的特点,其中视频作为重要的信息载体,发挥的作用越来越大

其中大量视频内容涉及到人体的动作和活动,因此,对于基于视频序列的人体动作识别是非常重要的一个研究方向,在许多场合都具有非常重要的作用

[0003]但是现有的人体动作识别算法或系统大多至针对单一特征进行采集和识别

其数据源十分单一,且无法适用于不同场景,十分影响后续识别结果的准确性


技术实现思路

[0004]针对现有技术的以上缺陷或改进需求中的一种或者多种,本专利技术提供了一种基于视频序列的人体动作识别方法

系统及存储介质,其利用运动分支和空间分支以及两分支的融合实现运动信息,外观信息,多频域信息的特征融合,并在融合过程中加入自适应多频域自注意力交叉融合模块,以更佳灵活的方式提高频率适应性,增强模型对通道信息建模的能力,使运动信息和时空信息同时与多频域信息进行交流融合,促进多方面特征关系的建立,增强模型特征建模能力,提高识别效果

[0005]为实现上述目的,本专利技术提供一种基于视频序列的人体动作识别方法,其包括以下步骤:
S100
:获取的视频数据,并按固定的时间间隔进行取帧操作,并确定分段数目和每段图的数量;
S200
:提取处理后视频中的运动信息和时空信息,并对运动信息和时空信息进行训练,使运动信息和时空信息同时与多频域信息进行交流融合;
S300
:采用基于
SSIM
的动态选择运动信息进行建模或采用基于熵的动态选择运动信息建模进行建模,然后再构建多域自适应架构;
S400
:输入图像数据,并获取模型中运动信息和时空信息的结果的平均值作为最终的识别结果;
S500
:将识别结果输出

[0006]作为本专利技术的进一步改进,在步骤
S200
中,具体包括以下步骤:利用自注意力机制,计算每个
token
的注意力得分,选择得分高的赋予多频域通道

[0007]作为本专利技术的进一步改进,将通道的注意力机制运用至多域自适应架构中,用于提取不同的通道信息

[0008]作为本专利技术的进一步改进,将所述通道的注意力机制运用至多域自适应架构中,
具体包括以下步骤,以来自运动分支和空间分支的特征为输入,每次对其进行频率选择时,都根据两条分支的特征流进行选择,使得运动特征,空间特征和自适应多频域信息的融合更佳高效,根据注意力得分选出合适的频率后赋予各个通道部分,进行特征提取

[0009]作为本专利技术的进一步改进,在步骤
S300
中,构建多域自适应架构包括以下步骤:通过对连续帧建立关系,获得视频序列中运动信息比较强烈的动作区域,学习细粒度的运动特性;提取视频中包含关键运动信息的时态变换,保证视频帧时间顺序的基础上,省略部分冗余信息,仅保存重要的运动强烈的信息

[0010]作为本专利技术的进一步改进,在所述时空信息的提取中,对输入视频的连续帧进行平均池化和双线性下采样操作,以提取静态信息

[0011]作为本专利技术的进一步改进,将所述时空信息和所述运动信息两个分支在训练过程中进行侧向连接,利用自适应频域模块将运动流,时空流,多频域流相融合,视频动作识别的多个特征流进行集成;最后将分支结果进行汇总,得出最终的识别分类

[0012]作为本专利技术的进一步改进,在步骤
S100
中,具体包括以下步骤:建立
csv
文件,用于存储视频所在路径,视频的名称以及该视频包含的图像数量;将视频分段,确定每段包含的图像数量,送入网络架构

[0013]作为本专利技术的进一步改进,将通道注意力运用到模型中,用于提取不同的通道信息

[0014]另一方面,本专利技术还提供了一种基于视频序列的人体动作识别系统,其包括依次通讯连接的数据处理模块

人体动作识别框架

自适应多频域自注意力融合交互模块

多域自适应架构和动态运动信息提取模块;其中:所述数据处理模块用于采集视频数据,并对获取的视频进行处理;并将其输送至所述人体动作识别框架中提取运动信息

时空信息;最后传输至所述自适应多频域自注意力融合交互模块对其进行频率选择;所述动态运动信息提取模块用于接收动作数据和时空数据,并以此构建模型,最后通过所述多域自适应架构构建模型的输入和输出

[0015]另一方面,本专利技术还提供了一种存储介质,所述存储介质上存储有计算机程序,该计算机程序执行时实现上述的识别方法

[0016]上述改进技术特征只要彼此之间未构成冲突就可以相互组合

[0017]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有的有益效果包括:本专利技术的基于视频序列的人体动作识别方法

系统及存储介质,其利用运动分支和空间分支以及两分支的融合实现运动信息,外观信息,多频域信息的特征融合,并在融合过程中加入自适应多频域自注意力交叉融合模块,以更佳灵活的方式提高频率适应性,增强模型对通道信息建模的能力,使运动信息和时空信息同时与多频域信息进行交流融合,促进多方面特征关系的建立,增强模型特征建模能力,提高识别效果

附图说明
[0018]图1为本专利技术实例所公开的一种基于视频序列的人体动作识别系统示意图

[0019]图2为本专利技术实例所公开的一种基于视频序列的人体动作识别流程示意图

具体实施方式
[0020]为了使本专利技术的目的

技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明

[0021]应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术

此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合

[0022]请参阅图1和图2,本专利技术优选实施例中的基于视频序列的人体动作识别方法,其采用卷积神经网络作为基本网络框架,利用运动分支和空间分支以及两分支的融合实现运动信息,外观信息,多频域信息的特征融合,提高基于视频序列的人体动作模型识别能力

并用经典的图像分类网络
resnet50
作为基础框架

整个模型共分为两个分支,一个分支对视频序列中提取的运动信息进行建模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于视频序列的人体动作识别方法,其特征在于,其包括以下步骤:
S100
:获取的视频数据,并按固定的时间间隔进行取帧操作,并确定分段数目和每段图的数量;
S200
:提取处理后视频中的运动信息和时空信息,并对运动信息和时空信息进行训练,使运动信息和时空信息同时与多频域信息进行交流融合;
S300
:采用基于
SSIM
的动态选择运动信息进行建模或采用基于熵的动态选择运动信息建模进行建模,然后再构建多域自适应架构;
S400
:输入图像数据,并获取模型中运动信息和时空信息的结果的平均值作为最终的识别结果;
S500
:将识别结果输出
。2.
根据权利要求1所述的基于视频序列的人体动作识别方法,其特征在于,在步骤
S200
中,具体包括以下步骤:利用自注意力机制,计算每个
token
的注意力得分,选择得分高的赋予多频域通道
。3.
根据权利要求2所述的基于视频序列的人体动作识别方法,其特征在于,将通道的注意力机制运用至多域自适应架构中,用于提取不同的通道信息
。4.
根据权利要求3所述的基于视频序列的人体动作识别方法,其特征在于,将所述通道的注意力机制运用至多域自适应架构中,具体包括以下步骤,以来自运动分支和空间分支的特征为输入,每次对其进行频率选择时,都根据两条分支的特征流进行选择,使得运动特征,空间特征和自适应多频域信息的融合更佳高效,根据注意力得分选出合适的频率后赋予各个通道部分,进行特征提取
。5.
根据权利要求
1~4
中任一项所述的基于视频序列的人体动作识别方法,其特征在于,在步骤
S300
中,构建多域自适应架构包括以下步骤:通过对连续帧建立关系,获得视频序列中运动信息比较强烈的动作区域,...

【专利技术属性】
技术研发人员:郑艳伟梁会于东晓陈锋
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1