一种基于动作连贯性的弱监督时序动作定位方法技术

技术编号：22330643 阅读：32 留言：0更新日期：2019-10-19 12:22

本发明专利技术属于机器视觉领域，公开了一种基于动作连贯性的弱监督时序动作定位方法，包括：将视频分为RGB帧和光流分别处理；对于每个动作模态，首先针对视频上的每个时间点，提出长度不同的假设的动作片段，然后根据视频的动作连贯性和分类准确率使用卷积神经网络回归动作片段。对于两个动作模态得到的不同动作片段，通过一个特性的模块进行结合，筛选出最终的动作定位结果。本发明专利技术在给定视频类别的情况下，可定位视频中属于该类别的动作片段。

A method of weak supervision sequential action location based on action coherence

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动作连贯性的弱监督时序动作定位方法
本专利技术属于计算机视觉
，涉及弱监督时序动作定位方法，特别涉及一种基于动作连贯性的弱监督时序动作定位方法。
技术介绍
时序动作定位是一项重要的计算机视觉问题，它在抽象的视频理解任务，如事件检测、视频总结和视频问题回答等方向有着非常重要的应用。目前大多数的时序动作定位方法需要精确的时间标注，需要消耗大量人力物力；同时，可能因动作的边界的模糊性使得该时间标注不准确。另外，目前的时序动作定位方法中，未将RGB和光流分别处理，忽略了RGB和光流本身的特征；最终片段得分仅由分类得分得出，忽视了RGB和光流本身的区别，且对分类神经网络依赖性大，很难得到最优结果。综上，亟需一种新的弱监督时序动作定位方法。
技术实现思路
本专利技术的目的在于提供一种基于动作连贯性的弱监督时序动作定位方法，以解决上述存在的一个或多个技术问题。本专利技术中，将视频分为RGB和光流分别处理，分别提出可能的动作片段，然后筛选融合来提出最后的结果，能够得出较优的定位结果。为达到上述目的，本专利技术采用以下技术方案：一种基于动作连贯性的弱监督时序动作定位方法，包括以下步骤：步骤1，将待处理视频分为多个不重合片段，获取每个片段的RGB特征和光流特征；步骤2，对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理，获得RGB动作片段和光流动作片段；所述动作片段回归处理包括：对于待处理视频的每个时间点，枚举不同预设长度的假想的动作片段，对于不同长度的动作片段使用预定的回归神经网络进行回归，回归神经网络使用动作连贯性损失函数进行训练，并获得动作片段；步骤3...

【技术保护点】
1.一种基于动作连贯性的弱监督时序动作定位方法，其特征在于，包括以下步骤：步骤1，将待处理视频分为多个不重合片段，获取每个片段的RGB特征和光流特征；步骤2，对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理，获得RGB动作片段和光流动作片段；所述动作片段回归处理包括：对于待处理视频的每个时间点，枚举不同预设长度的假想的动作片段，对于不同长度的动作片段使用预定的回归神经网络进行回归，回归神经网络使用动作连贯性损失函数进行训练，并获得动作片段；步骤3，通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度；使用非最大值抑制过滤掉重合度超过阈值的动作片段；步骤4，回归神经网络训练结束后；经过一个无参数的融合模块，筛选融合RGB动作片段和光流动作片段，得到最后的定位结果。

【技术特征摘要】
1.一种基于动作连贯性的弱监督时序动作定位方法，其特征在于，包括以下步骤：步骤1，将待处理视频分为多个不重合片段，获取每个片段的RGB特征和光流特征；步骤2，对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理，获得RGB动作片段和光流动作片段；所述动作片段回归处理包括：对于待处理视频的每个时间点，枚举不同预设长度的假想的动作片段，对于不同长度的动作片段使用预定的回归神经网络进行回归，回归神经网络使用动作连贯性损失函数进行训练，并获得动作片段；步骤3，通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度；使用非最大值抑制过滤掉重合度超过阈值的动作片段；步骤4，回归神经网络训练结束后；经过一个无参数的融合模块，筛选融合RGB动作片段和光流动作片段，得到最后的定位结果。2.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法，其特征在于，步骤1具体包括：将待处理视频分为多个不重合片段；对每个片段平均取样，使用卷积神经网络提取取样帧的特征，将提取获得的特征作为该片段的表示；其中，分别对RGB和光流提取特征。3.根据权利要求1所述的一种基于动作连贯性的弱监督时序动作定位方法，其特征在于，步骤2中，动作片段回归处理具体包括：对于假想长度为P的动作片段，使用下式进行回归：式中，xs为开始边界的序号，xe为结束边界的序号，为在开始边界位置回归的结果，为在结束边界位置回归的结果，P为动作片段长度。4.根据权利要求3所述的一种基于动作连贯性的弱监督时序动作定位方法，其特征在于，步骤2和步骤3中，动作连贯性损失函数由两部分组成；一部分用来表征动作片段特征与其上下文特征的余弦相似度；假设该动作片段与其上下文的特征分别用如下符号表示其中F(u)为视频在时间点为...

【专利技术属性】
技术研发人员：王乐，翟元浩，刘子熠，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人