一种基于深度判别分析的多模态人体动作识别方法技术

技术编号：40025367 阅读：9 留言：0更新日期：2024-01-16 17:24

本发明专利技术公开了一种基于深度判别分析的多模态人体动作识别方法：步骤1：数据集预处理；步骤2：构造基于深度神经网络的多模态特征融合模型的损失函数；步骤3：采用训练集对多模态特征融合模型进行训练；步骤4：提取出不同模态的非线性特征；步骤5：投影到公共子空间上，得到公共子空间中的共享表示；步骤6，利用SVM对共享表示进行分类，识别出每个动作类别；步骤7，对实时采集的待识别数据识别出动作类别。本发明专利技术引入成对类间距离来增加任意两个类别之间的区分性，避免传统方法平等处理类协方差导致的类重叠问题。试验表明，本发明专利技术的方法能够有效地融合多个模态之间的动作特征，获得更好的识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于动作识别，具体涉及一种基于深度判别分析的多模态人体动作识别方法。

技术介绍

1、人体动作识别(har)是当前计算机视觉研究的热点。目前，针对har的研究大多是基于单一模态开展的。然而，由于现实环境如光照昏暗，遮挡等因素的影响，导致单一模态的har在捕获动作特征方面存在局限性而降低识别性能。为了克服此限制，许多研究者提出了多模态人体动作识别方法来充分挖掘不同模态之间的互补信息实现高质量的识别结果。

2、如何有效地融合不同模态的特征是多模态人体动作识别的关键之处。大多数方法都是将这些特征投影到一个公共子空间中进行动作识别。然而，这些方法大多基于浅层结构模型，无法揭示不同模态之间的非线性关系，所以不能得到高鉴别性的公共子空间，导致识别结果不好。考虑到深度学习有强大的非线性映射能力，深度多模态融合算法利用神经网络将多模态特征投影到一个非线性地判别公共子空间中完成识别任务。然而，上述方法通常给予类协方差相同的权重，导致类间距较小的类在公共空间上发生重叠问题。这表明它们可能难以识别相似的动作，从而阻碍了动作分割。

技术实现思路

1、本专利技术的目的在于，提供一种基于深度判别分析的多模态人体动作识别方法，以解决现有技术中两个问题：(1)现有方法大多基于线性模型，难以揭示多模态之间的非线性关系；(2)现有方法通常平等对待所有类间距离，造成类间距较小的类在公共空间中发生重叠，从而导致分类识别精度低。

2、为了实现上述目的，本专利技术采用如下的技术解决方案：>

3、一种基于深度判别分析的多模态人体动作识别方法，包括以下步骤：

4、步骤1：数据集预处理：分别采用c3d网络和标准统计算法分别对vw15数据集的视频和wifi数据提取动作特征，得到预处理后的数据集，并将预处理后的数据集分为训练接和测试集；

5、所述训练集表示为：其中，mijk为第i类的第j个模态的第k个样本，i是类的序号，j为模态的序号，c为类的总数量，nij为第j个模态中第i类样本的数量，v为模态的总数量，dj为第j个模态的样本的维数；

6、步骤2：构造基于深度神经网络的多模态特征融合模型的损失函数：

7、

8、其中，tr()为对括号内的矩阵求迹；α为权重参数，α用来调整类内和类间散射对识别性能的影响，α≤1；a＝{a1,a2,...,av}为投影矩阵，aj为第j个模态对应的投影矩阵；ata＝i，是利用stiefel流形保证投影矩阵a的正交性；为所有模态中第i类样本的数量，nij为第j个模态中第i类样本的数量，v为模态的总数量；同理，nr为所有模态中第r类样本的数量；为所有模态的总样本数量；c为类的总数量，即数据集中包含的总的动作类别的个数；和分别为不同模态的类内散射矩阵和类间散射矩阵，它们的元素的定义如下：

9、

10、

11、其中，在公共子空间中，是第j个模态中第i类样本的均值，为的转置；yijk＝fj(mijk)为mijk经过dnn提取的非线性动作特征，fj为第j个模态对应的dnn的网络参数；是第p个模态中第i类样本在公共子空间中的均值，为的转置；nip为第p个模态中第i类样本的数量，是第p个模态中第r类样本在公共子空间中的均值，为的转置，nrp为第p个模态中第r类样本的数量，是第j个模态中第r类样本在公共子空间中的均值，为的转置，nrj为第j个模态中第r类的数量，为第i类样本的数量的平方，为第r类样本的数量的平方；

12、步骤3：采用训练集对多模态特征融合模型进行训练，所述多模态特征融合模型包括dnn，包括以下子步骤：

13、步骤3.1：将步骤1得到的训练集输入dnn计算得到yijk：

14、yijk＝fj(mijk)

15、其中，yijk为mijk经过dnn提取的非线性动作特征；fj为第j个模态对应的dnn的网络参数，此处采用fj的初始值；mijk为第i个动作类的第j个模态的第k个样本；

16、步骤3.2：利用步骤3.1得到的yijk和投影矩阵a计算步骤2定义的损失函数的初始值，此处投影矩阵a采用初始投影矩阵；

17、步骤3.3：利用步骤3.2得到的损失函数的初始值，采用训练集对基于深度神经网络的多模态特征融合模型进行训练，得到训练迭代的模型参数θ＝[a,f1,f2,...,fv]，将损失函数最小时对应的一组模型参数作为最优模型参数，从而得到训练好的多模态特征融合模型；

18、步骤4：根据步骤1得到的训练集和步骤3中得到最优模型参数中的fj，通过下式提取出不同模态的非线性特征；

19、yijk＝fj(mijk)；

20、步骤5：根据步骤3得到的最优模型参数中的投影矩阵a和步骤4得到的yijk，通过下式投影到公共子空间上，得到公共子空间中的共享表示z；

21、

22、其中，{a1,a2,...,av}为投影矩阵a，aj为第j个模态对应的投影矩阵；

23、步骤6，利用svm对步骤5得到的公共子空间中的共享表示z进行分类，识别出每个动作类别；

24、步骤7，对实时采集的待识别数据提取动作特征后，输入训练好的多模态特征融合模型，得到不同模态的非线性特征，然后将其与步骤3得到的最优模型参数中的投影矩阵a投影到公共子空间上，并利用svm进行分类，识别出动作类别。

25、进一步的，步骤3.1中，fj的初始值由以下操作得到：采用训练集对dnn进行预训练，预训练的损失函数采用mse，将训练好的网络参数作为fj的初始值。

26、相较于现有技术，本专利技术的方法的有益效果如下：

27、本专利技术的方法利用深度神经网络dnn充分探索多模态之间的复杂数据结构，从不同模态的非线性关系中挖掘更深层的动作特征，从而揭示了多模态之间的非线性关系，并将它们投影到一个公共子空间进行判别分析。另外，引入成对类间散射来避免传统方法平等对待所有类间距导致类间距较小的类发生的重叠问题，增加任意两个类别之间的区分性，最终提高分类精度。为了更充分地利用不同模态的动作特征，方法中加入了权重参数来调整类内散射和类间散射贡献率，从而获得一个优化的公共子空间。在vw15上的大量实验结果表明了本专利技术的方法的有效性。

本文档来自技高网...

【技术保护点】

1.一种基于深度判别分析的多模态人体动作识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度判别分析的多模态人体动作识别方法，其特征在于，步骤3.1中，fj的初始值由以下操作得到：采用训练集对DNN进行预训练，预训练的损失函数采用MSE，将训练好的网络参数作为fj的初始值。

【技术特征摘要】

1.一种基于深度判别分析的多模态人体动作识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度判别分析的多模态人体动作识别方法...

【专利技术属性】
技术研发人员：郭军，张益姣，石梅，孙敏娟，谢林睿，李洪民，
申请(专利权)人：西北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人