基于神经网络的动作检测制造技术

技术编号:18019183 阅读:71 留言:0更新日期:2018-05-23 05:19
本公开的各种实现涉及基于神经网络的动作检测。提出了一种使用神经网络的动作检测方案。该动作检测方案可以基于不同帧各自的重要性来设计和优化神经网络模型,使得较高的权重倾向于被分配给对动作识别而言重要性较高或判别性较高的帧,较低的权重倾向于被分配给对动作识别而言重要性较低或判别性较低的帧。

【技术实现步骤摘要】
基于神经网络的动作检测
技术介绍
检测诸如人类、机器人、动物或者其他移动对象等各种实体的动作或者活动,在很多领域具有重要的应用价值。这样的领域包括但不限于监控、卫生保健、人机交互、智能机器人导航、计算机游戏,等等。动作检测通常依赖于被称为“动作分类器”的训练模型。这样的模型可以利用与一个或多个移动的动作有关的视频来训练。一旦被训练,该模型可以被用于处理输入视频以便确定是否发生特定的动作。尽管付出了很大努力,但是基于模型的实体动作检测仍然是一项富有挑战的任务。期望进一步提升动作识别的性能以将其投入各种应用中。具体地,在快速有效识别关键特征,提升动作识别的精度以及减少模型训练的复杂度等方面存在改进的空间和需求。
技术实现思路
根据本公开的实现,提出了一种使用神经网络的动作检测方案。该动作检测方案基于视频或视频片段中的不同的帧对分类结果的判别性具有不同的影响。由此,可以考虑视频或视频片段的不同帧的不同的重要性(也称“注意力”),使得神经网络模型倾向于分配较高的权重给对动作识别而言重要性较高或判别性较高的帧,分配较低的权重给对动作识别而言重要性较低或判别性较低的帧。相似地,一个视频帧中,不同区域(例如,在骨架表示中也可以称为“关节点”)有不同的重要性,使得神经网络模型倾向于分配较高的权重给对动作识别而言重要性较高或判别性较高的区域,分配较低的权重给对动作识别而言重要性较低或判别性较低的区域。提供
技术实现思路
部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。附图说明图1示出了根据本公开的一个实现的示例场景;图2示出了能够在其中实施本公开的实现的环境的框图;图3a示出了根据本公开的一个实现的示例递归神经网络(RNN)神经元的结构的框图;图3b示出了根据本公开的一个实现的示例长短时记忆(LSTM)神经元的结构的框图;图4示出了根据本公开的一个实现的学习网络的结构的框图;图5示出了根据本公开的一个实现的模型的示意图;图6示出了根据本公开的一个实现的动作检测的方法的流程图;图7示出了根据本公开的另一实现的动作检测的方法的流程图;图8示出了根据本公开的一个实现的时间注意力权重的曲线图;图9示出了图8的实现的差分时间注意力权重的曲线图;图10示出了根据本公开的多个实现的性能比较图;以及图11示出了其中可以实施本公开的一个或多个实现的示例计算系统/服务器的框图。具体实施方式现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本主题的范围的任何限制。如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“或者”要被解读为“和/或”,除非上下文明确另外指示。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。除非另外地明确指出,术语的定义贯穿说明书是一致的。概述通常而言,基于包括多个帧的视频或视频片段进行动作识别综合考虑各个帧的贡献。例如,对这些帧同等地对待和处理。根据本公开的一个实现,可以将不同帧对分类决策的影响考虑在内以设计和优化神经网络模型,使得将不同的重要性给予不同的帧。例如,较高的权重被分配给对动作识别而言重要性较高或判别性较高的帧,较低的权重被分配给对动作识别而言重要性较低或判别性较低的帧。以这种方式,可以进一步提升模型精度,更加有利于动作识别。图1示出了根据本公开的一个实现的示例场景,其包括从(a)-(f)按照时间顺序排列的六个帧。在每一帧中包括对象10和20,分别是被踢者和踢者。可以看出,图1所表示的脚踢动作可以分为多个阶段,例如,准备阶段(a)-(b)、踢腿阶段(c)-(d)和收腿阶段(e)-(f),其中踢腿阶段对动作识别而言最具判别性。因而,可以针对踢腿阶段分配较高的注意力,从而有利于动作的识别和精度的提升。在一些实现中,还可以考虑空间注意力。例如,在图1所示的示例场景中,踢者的脚部动作对这一动作的识别最具判别性。因此,在动作识别期间可以分配较高权重给踢者的脚部。下面将结合附图具体地描述本公开的各种示例性实现方式。示例环境图2示出了能够在其中实施本公开的实现的环境100的框图。应当理解,仅出于示例性的目的描述环境100的结构和功能而不是暗示对于本公开的范围的任何限制。本公开可以被体现在不同的结构和/或功能中。环境100包括模型构建系统110和模型执行系统120。模型构建系统110被配置为根据训练数据集112构建用于动作检测的模型。数据集112可以包括一个或多个带标签的视频。这些视频或者视频片段可以被用标签标为与其中的一个或多个实体的预定义动作相关联。例如,视频或视频片段可以被分类为与包括喝、吃、洗手、打开电器、扫掠、漱口、扔垃圾、擦拭等等的预定义动作相关联。实体可以例如是人类、机器人、动物或者其他移动对象。视频中的实体的任何其他动作也可以被识别和贴标签。对视频或帧贴标签可以自动地和/或手动地执行。视频或帧的动作标签也可以被提供在数据集112中。被包括在模型构建系统110中的表示提取器114可以被配置为提取数据集112中的视频中的相应帧的表示信息。一般而言,视频的帧不可以直接地用于训练用于动作检测的模型。取而代之,表征帧中的一个或多个实体的更少量信息可以被提取以用于训练该模型,这将有助于提高训练过程的准确度和有效性。一个帧的表示信息可以表示该帧中的实体。在一些情况中,如果一个帧中包括多于一个实体,可以确定感兴趣的实体的表示信息。备选地,可以使用帧中所有实体的表示信息。在一些实现中,表示信息可以是帧中的一个或多个实体的骨架表示(skeletonrepresentation)。骨架表示可以包括帧中的一个或多个实体的至少一个关节的信息,包括(多个)关节的二维(“2D”)或三维(“3D”)位置信息。可以通过标识帧的二维图像的一个或多个实体的(多个)骨架结构或者通过利用深度相机(depthcamera)拍摄视频来获得关节信息。备选地或附加地,可以使用其他表示信息,诸如强度图中的梯度方向直方图(HistogramofOrientedGradient,HOG)或者通过尺度不变量特征变换(Scale-InvariantFeatureTransform,SIFT)的算法提取的信息。在一些实现中,判别性特征的提取基于RGB视频,其通常为二维信息,因而丧失了一些三维空间信息,例如,丧失了获得人体位置和尺度不变性的灵活性。骨架表示表示关键关节的3D坐标位置,因而对于位置和视角的变化具有鲁棒性。图1示出了骨架表示的一个示例,从图1的骨架表示可以清楚看出该动作为脚踢动作。此外,还可以看出,脚踢动作可以分为多个阶段,例如,准备阶段、踢腿阶段和收腿阶段,其中踢腿阶段对动作识别而言最具判别性。此外,从空间上讲,踢者的脚部动作对这一动作的识别最具判别性。因此,在动作识别期间可以考虑将这些因素考虑在内。现在返回图2,被包括在模型构本文档来自技高网...
基于神经网络的动作检测

【技术保护点】
一种设备,包括:处理单元;存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行以下动作:获取视频的多个帧的表示信息和针对所述视频的预定义动作标签,所述表示信息表示所述多个帧中的实体并且所述预定义动作标签与所述实体的动作相关联;以及基于所述多个帧的所述表示信息和所述预定义动作标签来更新学习网络,所述学习网络包括第一子网络,更新所述学习网络包括:使所述第一子网络基于所述表示信息确定所述多个帧的重要性;以及使所述学习网络基于所述表示信息和所述多个帧的重要性确定所述视频与预定义动作标签相关联的概率。

【技术特征摘要】
1.一种设备,包括:处理单元;存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行以下动作:获取视频的多个帧的表示信息和针对所述视频的预定义动作标签,所述表示信息表示所述多个帧中的实体并且所述预定义动作标签与所述实体的动作相关联;以及基于所述多个帧的所述表示信息和所述预定义动作标签来更新学习网络,所述学习网络包括第一子网络,更新所述学习网络包括:使所述第一子网络基于所述表示信息确定所述多个帧的重要性;以及使所述学习网络基于所述表示信息和所述多个帧的重要性确定所述视频与预定义动作标签相关联的概率。2.根据权利要求1所述的设备,其中所述动作还包括:使所述第一子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息,并且基于非线性函数确定所述第一帧的重要性。3.根据权利要求1所述的设备,其中所述学习网络还包括第二子网络,并且所述动作还包括:使所述第二子网络基于所述表示信息确定所述多个帧中的多个预定部分或多个预定关注点的重要性。4.根据权利要求3所述的设备,其中所述动作还包括:使所述第二子网络接收针对所述多个帧中的第一帧和在所述第一帧之前的第二帧的所述表示信息,并且基于非线性函数确定所述第一帧中的所述多个预定部分或所述多个预定关注点的重要性。5.根据权利要求1所述的设备,其中更新所述学习网络包括:基于由所述学习网络输出的动作标签的概率和由所述第一子网络确定的重要性,更新所述学习网络使得目标量最小化,所述目标量限制由所述第一子网络所确定的重要性的值的增加。6.根据权利要求3所述的设备,其中更新所述学习网络包括:基于由所述学习网络输出的动作标签的概率和由所述第二子网络确定的重要性,更新所述学习网络使得目标量最小化,所述目标量促使由所述第二子网络所确定的重要性平均分布于所述多个帧中的所述多个部分或所述多个关注点。7.根据权利要求3所述的设备,其中所述学习网络包括主网络,所述主网络的输入与所述第二子网络的输出耦合,所述主网络的输出与所述第一子网络的输出耦合,并且更新所述学习网络包括:在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下,更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数,所述第一类型不同于所述第二类型;在固定所述第一子网络和所述第二子网络中的所述第二类型子网络的参数的情况下,更新所述第一子网络和所述第二子网络中的所述第一类型子网络的参数和所述主网络的参数;在固定所述第一子网络和所述第二子网络的参数的情况下,更新所述主网络的参数;以及联合更新所述学习网络的参数。8.根据权利要求7所述的设备,其中更新所述第一子网络和所述第二子网络中的第二类型子网络的参数和所述主网络的参数包括:在固定所述第一子网络和所述第二子网络中的第一类型子网络的参数的情况下,更新所述第二类型子网络的参数和简化的所述主网络的参数;在固定经更新的所述第二类型子网络的参数的情况下,更新所述主网络的参数;以及联合更新所述第二类型子网络和所述主网络的参数。9.根据权利要求...

【专利技术属性】
技术研发人员:兰翠玲曾文军宋思捷兴军亮
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1