通过使用基于注意力的神经网络在视频剪辑中进行动作分类制造技术

技术编号:29036290 阅读:24 留言:0更新日期:2021-06-26 05:44
用于对视频中的动作进行分类的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法中的一个:获得视频剪辑的特征表示;获得用于指定在关键视频帧中的多个候选代理边界框的数据;并且针对每个候选代理边界框,通过动作转换器神经网络来处理所述特征表示。示。示。

【技术实现步骤摘要】
【国外来华专利技术】通过使用基于注意力的神经网络在视频剪辑中进行动作分类

技术介绍

[0001]本说明书涉及通过使用神经网络来处理视频数据。
[0002]神经网络是采用一层或多层非线性单元针对接收到的输入来预测输出的机器学习模型。一些神经网络包括除输出层外的一个或多个隐藏层。每个隐藏层的输出用作所述网络中的下一层(即下一隐藏层或输出层)的输入。所述网络的每一层根据相应的参数集合的当前值从接收到的输入中生成输出。

技术实现思路

[0003]本说明书描述了一种在一个或多个位置中的一个或多个计算机上被实施为计算机程序的系统,所述系统对由在视频中的关键视频帧中描绘的一个或多个代理(例如,一个或多个人或其它动物或机器人)所执行的动作进行分类。特别地,所述系统识别在关键视频帧中的可能描绘一个代理的边界框,并且生成一组分类得分,该组分类得分包括针对在一组可能动作中的每个动作的相应得分。给定动作的得分表示在所述边界框中描绘的代理在包括所述关键视频帧的视频剪辑中正在执行所述动作的可能性。所述系统可以生成针对在关键视频帧中的多个边界框的这些动作得分。
[0004]可以实施本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
[0005]所描述的系统有效地对由在视频剪辑中描绘的代理所执行的动作进行分类。特别地,所描述的系统可以在其动作被分类的代理周围有效地聚集来自(在视频剪辑内的)时空上下文的特征。这通过使用一种注意力机制来实现,所述注意力机制通过使用从与用于描绘其动作被分类的代理的边界框相对应的特征中导出的查询,来注意视频剪辑的特征表示。另外,系统可以利用该时空上下文来提高边界框预测的准确性。所述系统能够既跟踪单个人又能够根据视频中的其他人的动作将他们的动作置于上下文中。此外,因为由注意力机制在注意所述特征表示的各个部分时所生成的注意力权重定义了视频剪辑的哪些部分影响针对任何给定代理的动作分类,所以这些注意力权重也可以被输出以使神经网络关于任何给定代理的预测更可解释。换句话说,因为所述系统通过使用所描述的注意力机制来做出动作分类,所以所述系统在做出任何给定预测时所专注的所述视频的部分可以被用户识别,以允许用户更好地理解针对给定预测的原因。
[0006]基于所述动作得分(例如,作为其动作得分最高的动作)而获得的分类结果可以用于例如生成警告信号(例如,具体地,如果所述代理是人,则将警告信号传送到所述代理),如果根据分类结果,所述代理未执行期望动作和/或执行了不期望的动作的话。可替代地,它可以用作用于基于由分类结果所指定的动作而例如在所述代理的环境中控制所述系统的控制信号。例如,如果动作是正在朝着门行走,则控制信号可以控制所述门打开。
[0007]本说明书中描述的主题的一个或多个实施例的细节在以下的附图和描述中阐述。本主题的其它特征、方面和优点将从说明书、附图和权利要求书中变得显而易见。
附图说明
[0008]图1示出示例视频处理系统。
[0009]图2示出动作转换器神经网络的示例架构。
[0010]图3是用于生成针对视频剪辑的动作分类的示例过程的流程图。
[0011]在各个附图中,相似的附图标号和标记指示相似的元素。
具体实施方式
[0012]图1示出示例视频处理系统100。视频处理系统100是在用于实施下面描述的系统、组件和技术的、在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例。
[0013]系统100对由视频中的关键视频帧中所描绘的一个或多个代理(例如人或其它动物或机器人)所执行的动作进行分类。更具体地,系统100接收视频剪辑102和用于识别在视频剪辑中的关键视频帧的数据。在视频剪辑中的关键帧被在所述视频剪辑中的一个或多个其它帧(“上下文视频帧”)包围。所述视频剪辑可以由摄像机捕获,并且示出包含(一个或多个)代理的环境的至少一部分。
[0014]为了处理视频剪辑102,系统100识别在关键视频帧中的可能描绘代理的一个或多个边界框,并且生成用于每个边界框的动作分类得分150的集合,所述集合包括针对在可能动作集合中的每个动作的相应得分。针对给定动作的得分表示在边界框中描绘的所述代理在包括关键视频帧的视频剪辑中正在执行所述动作的可能性。所述系统还可以生成用于“背景”动作的得分,所述得分指示所述边界框或者是未描绘代理、或者是描绘了在所述视频中未正在执行动作的背景代理。当存在有在所述关键视频帧中识别出的多个边界框时,系统100可以生成针对在所述关键视频帧中的多个边界框的这些动作得分。
[0015]特别地,系统100获得视频剪辑102的特征表示112,即,所述剪辑包括所述关键视频帧和来自同一视频的一个或多个上下文视频帧。
[0016]通常,特征表示112是时空特征表示。即,特征表示112包括多个帧,每个帧对应于在所述视频剪辑中的不同的相应时间段(例如,相应的非重叠时间段)。特征表示112中的每个帧包括用于多个空间单元中的每一个空间单元的相应特征,其中每个空间单元对应于在视频剪辑的所述帧中的空间区域。
[0017]如在本说明书中所引用的,特征是数字值的有序集合,例如浮点值、定点值、或其它类型的数字值的向量或矩阵。
[0018]在一个示例中,当视频剪辑包括尺寸为H x W的T个视频帧时,特征表示包括尺寸为H

xW

的T

个视频帧。通常,T

小于T,H

小于H,并且W

小于W。作为特定示例,T

可以等于T/4,H

可以等于H/16,并且W

可以等于W/16。
[0019]在一些实施方式中,系统100从外部系统接收特征表示112。在其它实施方式中,系统100通过使用“基础”神经网络110来生成特征表示。所述神经网络110被称为“基础”神经网络,因为它用作处理管线的基础,即因为它生成所述特征表示112,然后所述特征表示112将被用于对动作进行分类。
[0020]基础神经网络110可以具有任何适当的神经网络架构,其允许基础神经网络110生成输入视频剪辑的时空特征表示。例如,神经网络110可以包括多个三维卷积层,这些三维
卷积层减小所述视频剪辑的空间和时间维度以生成特征表示(例如,同时增加每个特征的维度数量)。作为特定示例,神经网络110可以是I3D神经网络的初始层。I3D神经网络在2017年的CVPR中的在J.Carreira和A.Zisserman的“Quo Vadis,Action Recognition?A new model and the kinetics dataset”(“君往何处”,动作识别?新模型和动力学数据集)中被进一步描述。
[0021]系统100还获得用于指定在关键视频帧中的多个候选代理边界框的数据122。每个候选代理边界框是所述关键视频帧中的用于描述代理的一部分的初始估计。即,每个候选代理边界框是在所述关键视频帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:获得视频剪辑的特征表示,所述视频剪辑包括来自视频的关键视频帧和来自所述视频的一个或多个上下文视频帧;获得用于指定在所述关键视频帧中的多个候选代理边界框的数据,其中,每个候选代理边界框是所述关键视频帧中的描绘代理的部分的初始估计;以及针对每个候选代理边界框:通过动作转换器神经网络来处理所述特征表示,其中,所述动作转换器神经网络包括:动作转换器层的堆栈,所述动作转换器层的堆栈被配置为处理所述特征表示以生成用于所述候选代理边界框的最终查询特征向量,其中每个动作转换器层被配置为:针对一个或多个注意力单元中的每一个:接收用于所述动作转换器层的输入查询特征,从所述特征表示中生成键特征,从所述特征表示中生成值特征,将注意力机制应用于所述输入查询特征、所述键特征和所述值特征,以生成初始更新的查询特征;以及从所述初始更新的查询特征中生成输出查询特征,其中:用于在所述堆栈中的第一动作转换器层的输入查询特征是与在所述特征表示中的所述候选代理边界框相对应的特征,用于在所述堆栈中的除了所述第一动作转换器层之外的每个动作转换器层的输入查询特征是基于用于在所述堆栈中的前一个动作转换器层中的每个注意力单元的输出查询特征来生成的,以及所述最终查询特征是基于用于在所述堆栈中的最后动作转换器层中的每个注意力单元的输出查询特征来生成的;以及一个或多个分类输出层,所述一个或多个分类输出层被配置为处理由所述最终查询特征组成的最终特征向量,以生成用于在可能动作的集合中的每个动作的相应分类得分,所述分类得分表示在所述候选代理边界框中所描绘的人员正在执行所述视频剪辑中的所述动作的可能性。2.根据前述权利要求中的任一项所述的方法,其中,所述动作转换器神经网络还包括:一个或多个回归输出层,所述一个或多个回归输出层被配置为处理用于所述候选代理边界框的所述最终特征向量,以生成用于定义最终边界框的数据,所述最终边界框是所述关键视频帧中的描绘所述代理的部分的精炼估计。3.根据前述权利要求中的任一项所述的方法,其中,从所述特征表示中生成键特征包括:将第一学习线性转换应用于所述特征表示。4.根据前述权利要求中的任一项所述的方法,其中,从所述特征表示中生成值特征包括:将第二学习线性转换应用于所述特征表示。5.根据前述权利要求中的任一项所述的方法,还包括在所述特征表示中生成与所述候选代理边界框相对应的特征,包括:
从所述特征表示中提取用于所述候选代理边界框的感兴趣区域ROI池化特征...

【专利技术属性】
技术研发人员:若昂
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1