当前位置: 首页 > 专利查询>清华大学专利>正文

视频分析方法及装置制造方法及图纸

技术编号:17780328 阅读:86 留言:0更新日期:2018-04-22 09:09
本公开涉及一种视频分析方法及装置,所述方法包括:将待识别视频输入单帧识别模型,得到所述待识别视频中单帧图像的单帧特征;根据帧长度、起始帧和识别步长,将所述待识别视频划分为各视频块;根据各视频块包括的单帧图像的单帧特征和帧长度,确定各视频块的特征流矩阵;将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵;根据视频块的注意力矩阵,确定所述待识别视频的注意力向量。本公开选择性地关注视频空间上比较重要的区域,以及时间上相对重要的帧,进而减少了不相关信息对视频分析结果的影响。

【技术实现步骤摘要】
视频分析方法及装置
本公开涉及计算机视觉领域,尤其涉及一种视频分析方法及装置。
技术介绍
视频分析是计算机视觉领域的一个重要方向,近几年,神经网络在图像分析领域取得了重大突破,然而相对图像而言,视频增加了时间维度信息,因此让机器理解不同视频帧在时间维度上的联系变得尤为重要。在传统的方法中,通常利用光流等手工特征来描述视频的时间信息,往往只考虑不同的单帧图像的分析结果,无法准确区分视频中整体动作中的某部分关键动作,导致视频的识别结果不准确。
技术实现思路
有鉴于此,本公开提出了一种视频分析方法及装置,用以解决传统的视频分析方法中,不能准确区分视频中整体工作中的关键动作,导致视频的识别结果不准确的问题。根据本公开的一方面,提供了一种视频分析方法,所述方法包括:将待识别视频输入单帧识别模型,得到所述待识别视频中单帧图像的单帧特征;根据帧长度、起始帧和识别步长,将所述待识别视频划分为各视频块;根据各视频块包括的单帧图像的单帧特征和帧长度,确定各视频块的特征流矩阵;将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵;根据视频块的注意力矩阵,确定所述待识别视频的注意力向量。在一种可能的实现方式中,将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵,包括:根据单帧特征的特征宽、单帧特征的特征高以及所述帧长度,确定所述视频块的初始注意力矩阵;将所述初始注意力矩阵和第一个视频块的特征流矩阵,输入长短期记忆模型进行处理,得到第一个视频块的注意力矩阵;将第二个视频块及其后续的视频块作为当前视频块,依次将上一个视频块的注意力矩阵和当前视频块的特征流矩阵,输入长短期记忆模型进行处理,得到当前视频块的注意力矩阵。在一种可能的实现方式中,将上一个视频块的注意力矩阵和当前视频块的特征流矩阵,输入长短期记忆模型进行处理,得到当前视频块的注意力矩阵,包括:将上一个视频块的注意力矩阵和当前视频块的特征流矩阵加权求和,得到整合特征矩阵;将所述整合特征矩阵输入长短期记忆模型进行处理,得到当前视频块的注意力矩阵。在一种可能的实现方式中,根据视频块的注意力矩阵,确定所述待识别视频的注意力向量,包括:将单帧图像所在的视频块的注意力矩阵取平均值,得到单帧图像的单帧向量;根据所有单帧图像的单帧向量,得到所述待识别视频的注意力向量。在一种可能的实现方式中,将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵,还包括:得到当前视频块的类别概率;将所述类别概率输入分类器进行处理,得到当前视频块的视频块类别;根据视频块的视频块类别,确定所述待识别视频的视频类别。根据本公开的另一方面,提供了一种视频分析装置,包括:单帧特征确定模块,用于将待识别视频输入单帧识别模型,得到所述待识别视频中单帧图像的单帧特征;视频块划分模块,用于根据帧长度、起始帧和识别步长,将所述待识别视频划分为各视频块;特征流矩阵确定模块,用于根据各视频块包括的单帧图像的单帧特征和帧长度,确定各视频块的特征流矩阵;注意力矩阵确定模块,用于将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵;注意力向量确定模块,用于根据视频块的注意力矩阵,确定所述待识别视频的注意力向量。在一种可能的实现方式中,所述注意力矩阵确定模块,包括:初始注意力矩阵确定子模块,用于根据单帧特征的特征宽、单帧特征的特征高以及所述帧长度,确定所述视频块的初始注意力矩阵;第一注意力矩阵确定子模块,用于将所述初始注意力矩阵和第一个视频块的特征流矩阵,输入长短期记忆模型进行处理,得到第一个视频块的注意力矩阵;后续注意力矩阵确定子模块,用于将第二个视频块及其后续的视频块作为当前视频块,依次将上一个视频块的注意力矩阵和当前视频块的特征流矩阵,输入长短期记忆模型进行处理,得到当前视频块的注意力矩阵。在一种可能的实现方式中,所述后续注意力矩阵确定子模块,包括:整合子模块,用于将上一个视频块的注意力矩阵和当前视频块的特征流矩阵加权求和,得到整合特征矩阵;长短期记忆模型处理子模块,用于将所述整合特征矩阵输入长短期记忆模型进行处理,得到当前视频块的注意力矩阵。在一种可能的实现方式中,所述注意力向量确定模块,包括:单帧向量确定子模块,用于将单帧图像所在的视频块的注意力矩阵取平均值,得到单帧图像的单帧向量;求和子模块,用于根据所有单帧图像的单帧向量,得到所述待识别视频的注意力向量。在一种可能的实现方式中,所述注意力矩阵确定模块,还包括:类别概率确定子模块,用于得到当前视频块的类别概率;分类器子模块,用于将所述类别概率输入分类器进行处理,得到当前视频块的视频块类别;视频类别确定子模块,用于根据视频块的视频块类别,确定所述待识别视频的视频类别。根据本公开的一方面,提供了一种视频分析装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行时实现本方法权利要求中任意一项所述的方法。根据本公开的一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现本方法权利要求中任意一项所述的方法。通过将待识别视频划分为视频块,以及获取待识别视频的单帧图像的单帧特征,本公开选择性地关注视频空间上比较重要的区域,以及时间上相对重要的帧,进而减少了不相关信息对视频分析结果的影响。此外,时域上的注意力模型还可以用来筛选视频的关键帧。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。图1示出根据本公开一实施例的视频分析方法的流程图;图2示出根据本公开一实施例的视频分析方法的流程图;图3示出根据本公开一实施例的视频分析方法的流程图;图4示出根据本公开一实施例的视频分析方法的流程图;图5示出根据本公开一实施例的视频分析方法的流程图;图6示出根据本公开一实施例的视频分析方法的应用示例的示意图;图7示出根据本公开一实施例的视频分析方法的应用示例的示意图;图8示出根据本公开一实施例的视频分析方法的应用示例的示意图;图9示出根据本公开一实施例的视频分析装置的框图;图10示出根据本公开一实施例的视频分析装置的框图;图11示出根据本公开一实施例的视频分析装置的框图。具体实施方式以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。图1示出根据本公开一实施例的视频分析方法的流程图,如图1所示,该方法包括如下步骤:步骤S10,将待识别视频输入单帧本文档来自技高网...
视频分析方法及装置

【技术保护点】
一种视频分析方法,其特征在于,所述方法包括:将待识别视频输入单帧识别模型,得到所述待识别视频中单帧图像的单帧特征;根据帧长度、起始帧和识别步长,将所述待识别视频划分为各视频块;根据各视频块包括的单帧图像的单帧特征和帧长度,确定各视频块的特征流矩阵;将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵;根据视频块的注意力矩阵,确定所述待识别视频的注意力向量。

【技术特征摘要】
1.一种视频分析方法,其特征在于,所述方法包括:将待识别视频输入单帧识别模型,得到所述待识别视频中单帧图像的单帧特征;根据帧长度、起始帧和识别步长,将所述待识别视频划分为各视频块;根据各视频块包括的单帧图像的单帧特征和帧长度,确定各视频块的特征流矩阵;将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵;根据视频块的注意力矩阵,确定所述待识别视频的注意力向量。2.根据权利要求1所述的方法,其特征在于,将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵,包括:根据单帧特征的特征宽、单帧特征的特征高以及所述帧长度,确定所述视频块的初始注意力矩阵;将所述初始注意力矩阵和第一个视频块的特征流矩阵,输入长短期记忆模型进行处理,得到第一个视频块的注意力矩阵;将第二个视频块及其后续的视频块作为当前视频块,依次将上一个视频块的注意力矩阵和当前视频块的特征流矩阵,输入长短期记忆模型进行处理,得到当前视频块的注意力矩阵。3.根据权利要求2所述的方法,其特征在于,将上一个视频块的注意力矩阵和当前视频块的特征流矩阵,输入长短期记忆模型进行处理,得到当前视频块的注意力矩阵,包括:将上一个视频块的注意力矩阵和当前视频块的特征流矩阵加权求和,得到整合特征矩阵;将所述整合特征矩阵输入长短期记忆模型进行处理,得到当前视频块的注意力矩阵。4.根据权利要求1所述的方法,其特征在于,根据视频块的注意力矩阵,确定所述待识别视频的注意力向量,包括:将单帧图像所在的视频块的注意力矩阵取平均值,得到单帧图像的单帧向量;根据所有单帧图像的单帧向量,得到所述待识别视频的注意力向量。5.根据权利要求1至4中任一项所述的方法,其特征在于,将初始注意力矩阵和视频块的特征流矩阵,输入长短期记忆模型进行处理,得到视频块的注意力矩阵,还包括:得到当前视频块的类别概率;将所述类别概率输入分类器进行处理,得到当前视频块的视频块类别;根据视频块的视频块类别,确定所述待识别视频的视频类别。6.一种视频分析装置,其特征在于,包括:单帧特征确定模块,用于将待识别视频输入单帧识别模型,得到所述待识别视频中单帧图像的单帧特征;视频块划分模块,用于根据帧长度、起始帧和识别步长,将所述待识别视频划分为各...

【专利技术属性】
技术研发人员:季向阳杨武魁陈孝罡
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1