当前位置: 首页 > 专利查询>河南博物院专利>正文

一种基于多元特征融合的行为识别方法技术

技术编号:38256970 阅读:12 留言:0更新日期:2023-07-27 10:19
本发明专利技术提出一种基于多元时序特征、空间融合的行为识别方法,通过熵信息流来提取时序特征,建立人体行为时序特征的表达方法和数据来源。建立人体行为空间特征的表达方法和数据来源,建立视频帧的前景模板和背景模板,从而将目标从图像中分离出来,便于后续步骤中基于时序的特征修正。最终在复杂场景下,建立多元时序特征、空间特征融合模型,准确识别复杂场景下人体行为。下人体行为。

【技术实现步骤摘要】
一种基于多元特征融合的行为识别方法


[0001]本
技术实现思路
属于计算机视觉、图像识别技术、图像分析技术、机器学习技术应用领域,特别地,涉及一种基于多元特征融合的行为识别方法。

技术介绍

[0002]行为识别是人工智能、计算机视觉等领域的热点与重点研究问题,旨在动态、实时地对图像、视频数据中的人体行为进行分析和识别。作为监控视频的主体,人体及其行为理解在人机交互、公共安全、智能家居、医疗健康多个行业具有广阔的应用前景。
[0003]现阶段,针对简单场景行为识别算法,如基于卷积网络的深度神经网络模型学习方法,在识别率上已经达到较高水平,如在UCF101数据集上已经达到了98.6%。然而由于视频数据本身的复杂性、行为场景的多样性,在十字路口等密集开放人流环境真实应用中行为识别算法需要面对高密度人群或存在大量干扰(比如,遮挡,光照不足,视频分辨率低等)的复杂场景,当前主流行为识别方法在实际应用中的效果并不理想,与人眼能够在自然场景中快速准确识别任意人体行为的能力还有较大差距,相关理论及方法研究仍存在较大探索空间。
[0004]复杂场景下针对人体行为识别的深度学习模型目前存在的主要问题是:学习数据量不足、多特征提取及融合所带来的内存和计算量开销过大、复杂场景下人体遮挡以及动作语义的模糊性强等问题。针对上述难题,本专利技术面向自然、复杂场景视频研究人体行为2D空间特征、3D运动特征以及骨骼点等多特征提取以及融合方法,重点关注真实场景中人体存在遮挡问题以及动作语义的模糊性问题。
[0005]本专利技术提出一种基于多元特征融合的行为识别方法,建立多元特征在时空中信息交互的学习模型,提升模型抗干扰能力,使计算机处理复杂场景中行为识别的能力达到更高水平。

技术实现思路

[0006]一种基于多元特征融合的行为识别方法,
[0007]采集获得原始视频数据;
[0008](1)从原始视频数据中提取人体行为时序特征:
[0009]定义熵信息流为:
[0010][0011]其中:
[0012][0013]式中j表示时序的图像帧数,E(j)表示第j帧图像的熵,F(j)表示熵信息流在第j帧的值。为如定义所述向量。
[0014]根据定义,熵信息流表示当前时刻熵与局部最大熵的比值,反映了熵随时间变化
的趋势。
[0015]熵信息流作为人体行为时序特征。
[0016](2)从原始视频数据中提取人体行为空间特征:
[0017]将原视频中的任一帧分解为目标前景f和背景b两幅子图像;将中除去f以外的部分像素填充为奇异值,并将该除外部分与f合并成与原图像大小相等的前景图像,记为f

;将中除去b以外的部分像素填充为奇异值,并将该除外部分与b合并成与原图像大小相等的背景图像,记为b

;表示原视频一帧图像;根据前述获得前景图像f

、背景图像b

,生成前景模板和背景模板作为空间特征数据。
[0018](3)建立多元特征融合模型,识别复杂场景下人体行为:
[0019]时序特征数据映射层,定义如下。
[0020][0021]为线性斜率参数,x,j分别对应于输入的数据F(j)和输出数据HA(x),β1是线性截距参数,σ为非线性激活函数;
[0022]将步骤2获得的前景模板通过卷积网络模组,获得卷积特征{CF
l
};
[0023]将步骤2获得的背景模板通过卷积网络模组,获得卷积特征{CB
l
};
[0024]空间特征映射层定义,如下:
[0025][0026]其中,
[0027][0028]其中,u,v是二维矩阵中元素的空间坐标,t是与视频帧对应的时序坐标,是背景模板获得的卷积特征{CB
l
}中的元素CB
l
(u,v,t)与空间特征映射层的元素HD(x,t)之间的线性映射斜率参数,是前景模板获得的卷积特征{CF
l
}中的元素CF
l
(u,v,t)与空间特征映射层的元素HD(x,t)之间的线性映射斜率参数,β2是线性截距参数;
[0029]建立空间、时序特征融合层,以及行为识别码输出层;
[0030]最终输出行为识别分类。
[0031]特别的,在采用上述模型对人体行为识别前,先采用BP方法对上述神经网络模型进行训练。
[0032]特别的,训练时每个视频样本根据步骤(1)、步骤(2)所述方法获得时序特征、空间特征。
[0033]特别的,时序特征、空间特征作为神经网络模型的输入样本。
[0034]特别的,将视频样本的真实分类所对应的分类置为1,其余值置为0,作为神经网络模型的输出样本。
[0035]特别的,采用上述神经网络模型识别时,同样将每个待识别的视频样本根据步骤(1)、步骤(2)所述方法获得时序特征、空间特征。
[0036]特别的,时序特征、空间特征作为神经网络模型的输入样本。
[0037]特别的,根据模型计算输出,并区输出中最大值所对应的分类作为视频的行为识别分类。
[0038]一种存储介质,用于存储执行所述方法的程序。
[0039]一种基于多元特征融合的行为识别系统,用于实施所述方法。
[0040]本专利技术的专利技术点及技术效果:
[0041]1、在复杂场景下,建立多元时序特征、空间特征融合模型,准确识别复杂场景下人体行为。特别是优选建立了符合多元时序特征、空间特征的神经网络层次结构,优化了神经网络模型,提高了在复杂场景下的识别准确率。
[0042]2、通过熵信息流来提取时序特征,建立人体行为时序特征的表达方法和数据来源,克服空间特征的信息混淆,提高了识别准确性。特别是,将输入的时序特征数据映射到独立的隐藏层,用于对空间特征的混淆性作补充,从而加强对空间特征在复杂背景下的支持。
[0043]3、建立人体行为空间特征的表达方法和数据来源,建立视频帧的前景模板和背景模板,从而将目标从图像中分离出来,便于后续步骤中基于时序的特征修正。在空间特征映射层建立前景和背景之间的关系,通过为前景、背景的数据源赋予不同权重,结合时序特征映射层,可以进一步修正空间特征的准确性,从而提高行为识别对噪声的鲁棒性。
具体实施方式
[0044]步骤1复杂场景下人体行为的时序特征的提取,建立人体行为时序特征的表达方法和数据来源,作为行为识别模型的输入源。
[0045]近年来,基于神经网络的机器学习方法逐渐被应用于人体行为识别、检测的工程应用中,其中基于卷积网络的一类神经网络模型成为代表,该类网络模型具有迭代层数多(即深度网络)、单层参数量相对较小、对局部噪声抗干扰的特点,识别准确率较高。然而卷积网络在人体行为识别的应用中仍存在一定应用难点。例如,常用的三维卷积网络(3DCNN)将时序维和空间维结合,作为识别的局部特征源,虽然简化了特征提取,但也提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多元特征融合的行为识别方法,其特征在于:采集获得原始视频数据;(1)从原始视频数据中提取人体行为时序特征:定义熵信息流为:其中:式中j表示时序的图像帧数,E(j)表示第j帧图像的熵,F(j)表示熵信息流在第j帧的值。w=

2,

1,0,1,2时,分别为1,4,6,4,1。w是向量元素位置下标;熵信息流作为人体行为时序特征。(2)从原始视频数据中提取人体行为空间特征:将原视频中的任一帧分解为目标前景f和背景b两幅子图像;将中除去f以外的部分像素填充为奇异值,并将该除外部分与f合并成与原图像大小相等的前景图像,记为f

;将中除去b以外的部分像素填充为奇异值,并将该除外部分与b合并成与原图像大小相等的背景图像,记为b

;表示原视频一帧图像;根据前述获得前景图像f

、背景图像b

,生成前景模板和背景模板作为空间特征数据。(3)建立多元特征融合模型,识别复杂场景下人体行为:时序特征数据映射层,定义如下。时序特征数据映射层,定义如下。为线性斜率参数,x,j分别对应于输入的数据F(j)和输出数据HA(x),β1是线性截距参数,σ为非线性激活函数;将步骤2获得的前景模板通过卷积网络模组,获得卷积特征{CF
l
};将步骤2获得的背景模板通过卷积网络模组,获得卷积特征{CB
l
};空间特征映射层定义,如下:其中,其中,u,v是二维矩阵中元素的空间坐标,t是与视频帧对应的时序坐标,是背景模板获得的卷积特...

【专利技术属性】
技术研发人员:王凤琴陈宏阳马侠陈燕杨永双
申请(专利权)人:河南博物院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1