一种学习推理和知识图谱的视频动作识别方法与系统技术方案

技术编号：40242669 阅读：5 留言：0更新日期：2024-02-02 22:40

本发明专利技术公开了一种学习推理和知识图谱的视频动作识别方法与系统。包括：输入原视频，包括帧图像序列和音频，对音频进行预处理，得到预处理后的音频；对所述帧图像序列和所述预处理后的音频进行知识抽取并进行知识融合，计算视频帧有效性分数，构造包含视频帧索引和视频帧有效性分数的视频帧知识库；从所述视频帧知识库中提取较高所述视频帧有效性分数对应的所述视频帧索引，并据此抽取对应视频帧得到最终有效视频；将所述最终有效视频输入动作识别网络中进行知识推理，得到动作的预测。本发明专利技术通过知识抽取和知识融合能够充分利用视频中不同模态的数据全面评估视频帧的有效性和重要性，提高系统动作识别的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及动作识别领域，具体涉及一种学习推理和知识图谱的视频动作识别方法与系统。

技术介绍

1、充分利用海量的数据进行数据分析在现代信息技术中具有重要地位。在诸多数据分析任务中，动作识别具有重要意义。动作识别网络是一种能够从视频序列中自动识别和分类动作的深度学习网络结构。它能够帮助模型理解人类行为、动态场景和运动模式。

2、现有的动作识别网络在处理视频输入时，通常使用均匀采样或者随机区间采样的方法。尽管这些采样策略在某些情况下可以取得一定的效果，但它们也存在一些缺点和局限性。首先，均匀采样和随机区间采样可能无法充分捕捉到视频中的重要动作和关键帧。在一个长时间的视频中，有些动作可能只在短暂的时间段内发生，而其他时间段可能是静止或重复动作。均匀采样或随机区间采样很可能会错过这些关键帧，导致对动作的识别不准确或遗漏重要信息。其次，均匀采样无法有效处理视频中的时间相关性和动态变化。动作往往具有时序性和连贯性，相邻帧之间存在着运动和关联。传统的采样策略无法充分考虑这些时序信息，而仅仅依赖单独的帧进行识别，导致忽略了动作的演变和流畅性；随机区间采样具有很强的随机性，虽然有可能将视频中的重要动作覆盖，但更大概率是重要动作全部缺失。

3、目前的现有技术之一是论文“sampling salient clips from video forefficient action recognition”，该方法是一种基于高效采样视频显著片段的动作识别方法。该方法通过训练一个极轻量级的网络来确定候选视频片段的显著性，计算成本较低

4、目前的现有技术之二是论文“search-map-search:a frame selection paradigmfor action recognition”，该方法是一种基于分层搜索的帧选择范例的动作识别方法。该方法采用分层搜索算法在训练视频中高效找到最有利的帧组合，将其作为显式监督信息用于训练特征映射函数。该映射函数将输入视频的特征向量映射到期望的最优帧组合的特征向量。在对未见过的查询视频进行推理时，学到的映射函数将查询视频投影到目标特征向量，然后通过另一个搜索过程检索近似目标特征向量的实际帧组合。通过结合搜索和学习，该方法能够更好地捕捉帧之间的交互，同时保持低推理成本。该方法的缺点在于该方法在考虑视频信息时仅限于视觉模态，未充分利用音频模态，这可能限制了其在某些场景下的表现。

技术实现思路

1、本专利技术的目的是克服现有方法的不足，提出了一种学习推理和知识图谱的视频动作识别方法与系统。本专利技术解决的主要问题是如何充分利用视频中不同模态的数据全面评估视频帧的有效性和重要性，提高系统动作识别的准确性和效率。

2、为了解决上述问题，本专利技术提出了一种学习推理和知识图谱的视频动作识别方法，所述方法包括：

3、输入原视频，包括帧图像序列和音频，对音频进行预处理，得到预处理后的音频；

4、对所述帧图像序列和所述预处理后的音频进行知识抽取并进行知识融合，计算视频帧有效性分数，构造包含视频帧索引和视频帧有效性分数的视频帧知识库；

5、记需要选择的帧数为k，从所述视频帧知识库中提取第1到第k大的所述视频帧有效性分数对应的所述视频帧索引，得到有效视频帧索引，并根据有效视频帧索引从小到大从所述原视频中抽取对应视频帧，组合得到有效视频，在有效视频的开头添加所述原视频的首帧得到最终有效视频；

6、将所述最终有效视频输入动作识别网络中进行知识推理，得到动作的预测。

7、优选地，对音频进行预处理，具体为：

8、如果所述音频为立体声，则对两个声道的采样取平均。

9、优选地，对所述帧图像序列和所述预处理后的音频进行知识抽取并进行知识融合，计算视频帧有效性分数，具体为：

10、计算所述帧图像序列中相邻的帧图像的结构相似性指数ssim作为所述帧图像的有效性分数，计算公式如下：

11、

12、其中x表表示v[i]，即第i帧图像，y表表示v[i+1]，即第i+1帧图像(i＝1,…,t-1),μx和μy分别为第i帧图像和第i+1帧图像的像素平均值，σx和σy分别为第i帧图像和第i+1帧图像的像素标准差，σxy是第i帧图像和第i+1帧图像的像素协方差，c1和c2是两个常数，用于稳定计算；

13、对于所述预处理后的音频，进行如下两步操作，得到所述音频的有效性分数：

14、第一步，将所述预处理后的音频输入峰值检测算法，得到峰值点和峰值点的显著性值，将峰值点的显著性值作为所述音频的有效性分数；

15、第二步，将所述峰值点的时间戳根据所述原视频的视频帧速率进行转换并筛选以确保时间戳不超过指定的帧数；

16、将所述帧图像的有效性分数和所述音频的有效性分数加权平均，得到视频帧有效性分数。

17、相应地，本专利技术还提供了一种学习推理和知识图谱的视频动作识别系统，包括：

18、预处理单元，用于输入原视频，包括帧图像序列和音频，对音频进行预处理，得到预处理后的音频；

19、知识抽取单元，用于对所述帧图像序列和所述预处理后的音频进行知识抽取并进行知识融合，计算视频帧有效性分数，构造包含视频帧索引和视频帧有效性分数的视频帧知识库；

20、有效视频生成单元，用于记需要选择的帧数为k，从所述视频帧知识库中提取第1到第k大的所述视频帧有效性分数对应的所述视频帧索引，得到有效视频帧索引，并根据有效视频帧索引从小到大从所述原视频中抽取对应视频帧，组合得到有效视频，在有效视频的开头添加所述原视频的首帧得到最终有效视频；

21、动作识别单元，用于将所述最终有效视频输入动作识别网络中进行知识推理，得到动作的预测。

22、相应地，本专利技术还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述基于对比学习的开放场景半监督物体检测方法的步骤。

23、相应地，本专利技术还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于对比学习的开放场景半监督物体检测方法的步骤。

24、实施本专利技术，具有如下有益效果：

25、本专利技术提出了一种学习推理和知识图谱的视频动作识别方法。本专利技术是一种无参的，快速的帧选择策略方法。本专利技术采用知识抽取和知识融合的方法，即利用动作识别的两个关于视频和音频的先验知识，将视频和音频两种不同的模态数据融合在一起，通过计算基于结构相似性指数的视频分数和基于峰值点显著性值的音频分数综合考虑视频内容和音频声音的特性。这种多模态融合分析能够更全面地评估视频帧的有效性和重要性。同时，该方法根据分数自动选择最有价值的视频帧，有效提高了视频分析效率，减少了人工干预。

本文档来自技高网...

【技术保护点】

1.一种学习推理和知识图谱的视频动作识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种学习推理和知识图谱的视频动作识别方法，其特征在于，所述对音频进行预处理，具体为：

3.如权利要求1所述的一种学习推理和知识图谱的视频动作识别方法，其特征在于，所述对所述帧图像序列和所述预处理后的音频进行知识抽取并进行知识融合，计算视频帧有效性分数，具体为：

4.一种学习推理和知识图谱的视频动作识别系统，其特征在于，所述系统包括：

5.如权利要求4所述的一种学习推理和知识图谱的视频动作识别系统，其特征在于，所述预处理单元中的对音频进行预处理，具体为：

6.如权利要求4所述的一种学习推理和知识图谱的视频动作识别系统，其特征在于，所述知识抽取单元中的对所述帧图像序列和所述预处理后的音频进行知识抽取并进行知识融合，计算视频帧有效性分数，具体为：

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的方法的步骤。

8.一种

...

【技术特征摘要】

1.一种学习推理和知识图谱的视频动作识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种学习推理和知识图谱的视频动作识别方法，其特征在于，所述对音频进行预处理，具体为：

4.一种学习推理和知识图谱的视频动作识别系统，其特征在于，所述系统包括：

5.如权利要求4所述的一种学习推理和知识图谱的视频动作识别系统，其特征在于，所述...

【专利技术属性】
技术研发人员：苏卓，鞠善杰，周凡，林格，赵宝全，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人