视频理解神经网络系统及其使用方法技术方案

技术编号:32139459 阅读:18 留言:0更新日期:2022-02-08 14:32
本申请涉及到时间信息聚合(TIA)神经网络块,以提取潜在的多尺度时间信息。通过应用TIA,不同时间尺度的信息可以被有效提取。TIA块可以作为一个块来实现,因此可以插入到任何架构中。提取的多尺度时间信息作为残差贡献给最终输出。最终输出。最终输出。

【技术实现步骤摘要】
【国外来华专利技术】视频理解神经网络系统及其使用方法


[0001]本申请涉及神经网络系统和方法,更具体地,涉及视频理解神经网络系统及其使用方法。

技术介绍

[0002]视频是当今大数据中不可缺少的一部分。在图像和语音的深度学习进展的推动下,使用深度学习技术来理解视频内容已经成为最热门的话题之一。与静止图像相比,视频数据中隐藏着额外的多尺度时间模式。视频理解,如视频分类或其它类型的使用人工智能的机器学习方法,目标是提取鲁棒的视频特征表示,并有效利用视频中的多尺度时空线索,根据其语义内容如人类行动或复杂事件自动分类视频片段。
[0003]针对这项任务,大量工作已经开展。然而,目前的工作通常受到昂贵的计算成本或内存开销的影响。例如,双流CNN的计算成本很高,而且不能考虑帧的顺序,不能分析视频中的时间动态;非本地神经网络的特点是在矩阵乘法中具有很大的内存开销;慢速网络的计算成本很高。
[0004]因此,需要找到一个高效、轻量级但通用的组件,用于捕捉深度神经网络中的时间依赖性。

技术实现思路

[0005]本申请的一个方面涉及由一个或多个电子设备实现的神经网络系统(例如,2D、3D神经网络系统或其它维度的神经网络系统)。该神经网络包括:基线神经网络,用于处理以时间序列构建的多个图像。该基线神经网络包括:第一基线块,用于处理第一特征图中的至少一个空间特征,从而将与多个图像相关的第一特征图转换为第二特征图;以及邻近该第一基线块的目标神经网络块,用于对第二特征图进行时间处理,从而将第二特征图转换为时间特征图;并将该时间特征图与该第二特征图相结合,从而生成第三特征图。
[0006]根据本申请的一个方面,提出了一种使用至少一个神经网络分析以时间序列构建的多个图像(例如,视频剪辑)的方法。该方法包括:基线神经网络的第一块处理第一特征图中的至少一个空间特征,从而将与多个图像相关的该第一特征图转换为第二特征图;目标神经网络块对该第二特征图进行时间处理,从而将该第二特征图转换为时间特征图;以及该目标神经网络块将该时间特征图与该第二特征图相结合,从而生成第三特征图。
[0007]根据本申请的另一个方面,非临时存储介质可以包括用于神经网络(例如,二维、三维神经网络系统或其它维度的神经网络系统)的指令集和操作该神经网络的操作指令。当执行指令集时,电子设备的处理器可以执行以下操作:基线神经网络的第一块处理第一特征图中的至少一个空间特征,从而将与多个图像相关的该第一特征图转换为第二特征图;目标神经网络块对该第二特征图进行时间处理,从而将该第二特征图转换为时间特征图;以及该目标神经网络块将该时间特征图与该第二特征图相结合,从而生成第三特征图。
附图说明
[0008]本申请的内容将通过示范性实施例进一步描述。在以下的详细描述中,当结合附图时,本申请的实施例的上述和其它方面将变得更加明显。
[0009]图1示出了本申请实施例提出的一种用于操作神经网络系统和视频分类方法的电子设备的示意框图;
[0010]图2示出了本申请实施例提出的一种用于分类和分析视频片段的基线神经网络的结构示意图;
[0011]图3A

C示出了本申请实施例提出的基线神经网络的不同神经网络块结构的示意框图;
[0012]图4示出了本申请实施例提出的一种用于分类视频片段的经修正的神经网络的结构示意图;
[0013]图5示出了本申请实施例提出的一种时间信息聚合块的示意图;
[0014]图6A

C示出了本申请实施例提出的时间信息聚合块可提取的时间信息的示意图;
[0015]图7示出了本申请实施例提出的一种通过至少一个神经网络分析时序构建的多个图像的方法的流程图。
具体实施方式
[0016]本申请的一个方面涉及时间信息聚合(Temporal Information Aggregation,TIA)模块或块。通过连续地用各种池化窗口对特征图进行时间池化,TIA块可以有效地从所述特征图中提取潜在的多尺度时间信息。然后,提取的多尺度时间信息可能有助于神经网络或神经网络的一部分的最终输出作为残差。TIA模块/块可以被插入任何神经网络架构(如ResNet

50网络),用于各种计算机视觉任务,如视频搜索、时刻搜索和字幕等。根据理解视频片段所需要的时间尺度,池化窗口可以与基线神经网络中卷积层的内核的相应时间尺度相同或不同,从而使TIA提取的时间信息与基线神经网络的时间尺度不同。
[0017]下面的描述是为了使本领域技术人员能够制造和使用本申请的内容,并且是在特定应用及其要求的背景下提供的。对所公开的实施例的各种修改对于本领域技术人员来说将是显而易见的,并且此处定义的一般原则可应用于其它实施例和应用,而不偏离本申请的精神和范围。因此,本申请的内容不限于所示实施例,而应给予与权利要求书相一致的最广泛的范围。
[0018]还应理解的是,尽管术语“第一”、“第二”等在此可用于描述各种元素,但这些元素不应受到这些术语的限制。这些术语仅用于将一个元素与另一个元素区分开来。例如,第一接触可以被称为第二接触,同样,第二接触也可以被称为第一接触,而不偏离本申请的范围。第一接触和第二接触都是接触,但它们不是同一个接触。
[0019]本文使用的术语仅用于描述特定的示例性实施例,并不打算进行限制。如本文所使用的,单数形式“一个”可意指也包括复数形式,除非上下文明确指出。将进一步理解,术语“包括”、“可能包含”和/或“包含”当在本说明书中使用时,指定存在所述特征、整数、步骤、操作、元素和/或组件,但不排除存在或添加一个或多个其它特征、整数、步骤、操作、元素、组件和/或其组合。
[0020]如本文所使用的,术语“如果”可解释为“当”或“一旦”或“相应于确定”或“相应于
检测”,这取决于上下文。类似地,短语“如果确定”或“如果检测到【所述条件或事件】”可被解释为“在确定时”或“响应于确定”或“在检测到【所述条件或事件】时”或“响应于检测到【所述条件或事件】”,这取决于上下文。
[0021]如本文所使用的,程序、指令和数据被存储在预定的数据结构中。例如,数据结构可包括第一部分、第二部分和第三部分的字节。第二部分可以包括数据所涉及的内容。例如,对于存储在存储介质中的图像,其内容数据可以是图像的实质内容。对于一个指令,其内容可以是与该指令相对应的命令的实质内容。数据的第三部分可以是一个指针端,指针头可以指向下一个数据字节的第一部分。数据的第一部分可以是指针头,其中指针端可以连接到另一数据字节的第三数据部分。
[0022]本申请的这些和其它特征,以及相关结构元素的操作方法和功能,以及部件的组合和制造的经济性,在参照附图考虑以下描述后可能变得更加明显,所有这些附图构成本说明书的一部分。然而,应明确理解的是,附图仅用于说明和描述的目的,并不限制本申请的公开范围。应该理解的是,这些附图并不是按比例绘制的。
[0023]本申请中使用的流程图说明了,根据本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种神经网络系统,由一个或多个电子设备所实现,其特征在于,包括目标神经网络块,被配置为插入到基线神经网络中;其中,所述目标神经网络块包括:至少一个池化单元,用于:接收输入特征图;以及在时间上将所述输入特征图池化成至少一个中间特征图;以及至少一个其它处理单元,用于:在时间上将所述至少一个中间特征图处理,以生成残差特征图;以及结合所述残余特征图与所述输入特征图,以生成输出特征图。2.根据权利要求1所述的神经网络系统,其特征在于,所述至少一个池化单元用于通过不同时间尺度的n个池化窗口将所述输入特征图池化为n个中间特征图;其中,n是一个大于1的预定正整数。3.根据权利要求2所述的神经网络系统,其特征在于,进一步包括:所述基线神经网络,用于处理时序构建的多个图像,所述基线神经网络包括第一基线块;其中,所述第一基线块包括至少一个时间卷积层或至少一个空间卷积层之一;所述至少一个时间卷积层用于在时域中处理第一特征图,所述至少一个空间卷积层用于在空间域中处理所述第一特征图。4.根据权利要求3所述的神经网络系统,其特征在于,所述至少一个时间卷积层的内核包括时间分量。5.根据权利要求2所述的神经网络系统,其特征在于,所述目标神经网络块进一步用于在时间上将所述n个中间特征图中的每一个中间特征图重新缩放到预定尺寸,以生成所述残差特征图。6.根据权利要求5所述的神经网络系统,其特征在于,为了生成所述残差特征图,所述至少一个其它处理单元进一步包括:合成器,用于将所述n个重新缩放的中间特征图进行合成以获得合成特征图;以及层,用于在时间上将所述合成特征图重新缩放到所述输出特征图的尺寸,以生成所述残差特征图。7.根据权利要求6所述的神经网络系统,其特征在于,所述目标神经网络块用于沿着所述n个重新缩放的中间特征图各自的通道轴,合成所述n个重新缩放的中间特征图,从而将所述n个重新缩放的中间特征图进行合成以获得所述合成特征图。8.根据权利要求7所述的神经网络系统,其特征在于,所述层进一步包括卷积层,应用在所述合成特征图以将所述合成特征图的通道尺寸缩小到第二特征图的通道尺寸,从而对所述合成特征图进行时间上的重新缩放。9.根据权利要求1所述的神经网络系统,其特征在于,所述至少一个其它处理单元包括求和单元,用于将所述残差特征图与所述输入特征图进行元素求和,从而将所述残差特征图与所述输入特征图结合。10...

【专利技术属性】
技术研发人员:孟子博陈鸣何朝文
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1