【技术实现步骤摘要】
第一人称视角动作识别方法、系统及存储介质
[0001]本专利技术属于视频处理和理解的
,具体涉及一种第一人称视角动作识别方法、系统以及存储介质。
技术介绍
[0002]第一人称视角动作识别,是指在可穿戴摄像头拍摄的第一人称视角视频中,识别出摄像头穿戴者的动作。这项技术有着广泛的应用背景,可以在健康监测,生活记录,虚拟现实等应用场景中使用。例如在健康监控中,为有健康障碍的病人穿戴简易摄像头,可以凭此识别病人的当前动作,从而推断病人的当前状态,能有效在危险动作发生后报警,也可记录病人的长期状态,有利于对病人的分析治疗。再如在生活记录中,第一人称视角摄像头能长时间记录穿戴者的动作,基于此的动作识别能描绘摄像头穿戴者的动作变化,是生活视频片段检索的基础。
[0003]现有的第一人称视角动作识别方法主要分为两类:
[0004](1)基于卷积神经网络的视频分类:为了识别视频中反映的摄像头穿戴者的动作,这类方法直接使用普通(第三人称视角)视频或图片中动作识别的方法,使用二维或三维卷积神经网络,提取输入视频的多帧图像的 ...
【技术保护点】
【技术特征摘要】
1.一种第一人称视角动作识别方法,包括以下步骤:使用动作类别作为监督,定位视频中的关键区域;通过所述关键区域的位置信息提取关键区域的特征;提取整个视频的特征作为全局特征;通过学习将所述关键区域的特征划分为用于表示两种交互主体的两个组别;所述两种交互主体包括摄像头穿戴者的身体部位,以及与摄像头穿戴者交互的人或物体;构建显式关系建模的长短时记忆网络,在基础的长短时记忆网络结构中设计候选连接;所述候选连接包括不同帧之间的时序关系,两个交互主体组别之间的交互关系,以及交互主体和全局特征之间的上下文关系;通过网络结构自动搜索的方法,以数据驱动的方式搜索最优的长短时记忆网络结构,并进行动作识别。2.根据权利要求1所述的第一人称视角动作识别方法,其特征在于,所述使用动作类别作为监督,定位视频中的关键区域具体步骤为:从每个视频片段中随机均匀采样若干帧;对于采样的任意一帧I,使用沙漏型网络g计算包含N个通道的特征图R,用于关键区域坐标计算,如下式:其中,I为视频帧,R为计算关键区域坐标的特征图,W、H分别为特征图R的宽和高;使用softmax函数对特征图R做通道维度的归一化,并对N个通道中的每个通道计算重心得到N个关键区域的中心坐标,如下式:心得到N个关键区域的中心坐标,如下式:中心坐标的归一化因子S
n
计算为:其中,M为归一化的特征图,(x
n
,y
n
)为关键区域的中心坐标;对每个关键区域的中心坐标,生成一个中心在该坐标的高斯掩膜,如下式:其中,σ为高斯掩膜的标准差,为生成的高斯掩膜。3.根据权利要求1所述的第一人称视角动作识别方法,其特征在于,所述提取整个视频的特征作为全局特征具体为:对于采样的任意一帧I,使用网络f计算包含C个通道的特征图X,用于表观特征提取,如下式:
其中,I为视频帧,X为表观特征的特征图,w、h分别为特征图X的宽和高;所述通过所述关键区域的位置信息提取关键区域的特征具体为:利用所述高斯掩膜与所述表观特征的特征图X,计算每个关键区域的局部特征,如下式:其中,x
n
为第n个关键区域的特征。4.根据权利要求1所述的第一人称视角动作识别方法,其特征在于,所述通过学习将所述关键区域的特征划分为用于表示两种交互主体的两个组别,具体步骤为:对每个关键区域学习一个分离分数,用于表示所述关键区域被划分为一个组别的可能性,如下式:其中,W
s
为可学习参数,为第n个关键区域的平均特征,由下式得出:对分离分数进行标准化:对分离分数进行标准化:其中为指示函数,当x>0时返回1,否则返回0;所述对分离分数进行标准化的步骤用于避免所有关键区域都被分到同一个组别;根据分离分数将关键区域特征划分为两个组别,得到两个组别的特征,如下式:根据分离分数将关键区域特征划分为两个组别,得到两个组别的特征,如下式:所述划分为两个组别的步骤,用于后续两个组别之间交互关系的建模。5.根据权利要求1所述的第一人称视角动作识别方法,其特征在于,所述显式关系建模的长短时记忆网络包含两个互相对称的ego子网络和exo子网络;所述ego子网络和exo子网络分别对应所述表示两种交互主体的两个组别;所述ego子网络和exo子网络的隐层状态增加多种候选连接,用于网络结构搜索并显式建模不同关系;t时刻的ego子网络的计算表达式如下:
h
t
=σ(o
t
)
⊙
tanh(C
t
),其中,f
t
,i
t
,o
t
,s
t
,h
t
,C
t
,分别表示遗忘门,输入门,输出门,共享状态门,隐层状态,单元状态和候选单元状态,S
t
表示共享状态,是累积共享状态,W
ih
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。