视频识别方法、装置、设备和存储介质制造方法及图纸

技术编号:34903601 阅读:17 留言:0更新日期:2022-09-10 14:14
本申请提供一种视频识别方法、装置、设备和存储介质,该方法包括:获取需要进行类别识别的视频;通过第一网络模型提取视频对应的第一特征矩阵,并根据第一特征矩阵确定视频对应的topk个类别;根据topk个类别以及第一特征矩阵生成与topk个类别相关的概要信息;基于所述概要信息,通过第二网络模型提取视频对应的第二特征矩阵,并根据第二特征矩阵确定视频对应的目标类别,目标类别为topk个类别中的一个。基于上述从概要到细节的识别思路,有助于提取到包含更多关键细节的用于识别出目标类别的特征信息,从而可以实现输入视频的准确类别识别,且节省算力。基于该方案可以实现按照其中的人物行为类别对视频进行分类。的人物行为类别对视频进行分类。的人物行为类别对视频进行分类。

【技术实现步骤摘要】
视频识别方法、装置、设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种视频识别方法、装置、设备和存储介质。

技术介绍

[0002]诸如行为类别识别等分类识别,是深度学习技术重要的应用方向,同时也是视频分析中的基础任务。以行为类别识别为例,若提供对视频中人物的行为类别进行识别的能力,则可以实现对视频中诸如打架斗殴等异常行为的识别,从而及时告警相关处置部门。
[0003]传统的一种识别方式是:对需要进行识别的视频,采用固定采样策略(比如等时间间隔采样)对视频进行采样,以采样出多帧图像,之后,将该多帧图像输入到识别模型,获得识别模型基于该多帧图像输出的类别识别结果。
[0004]基于上述固定采样策略实现的识别方案,容易遗漏视频中与真实类别相对应的关键细节信息,从而导致识别结果准确性不佳。

技术实现思路

[0005]本专利技术实施例提供一种视频识别方法、装置、设备和存储介质,用于提高视频的分类识别结果准确性。
[0006]第一方面,本专利技术实施例提供一种视频识别方法,所述方法包括:获取需要进行类别识别的视频;通过第一网络模型提取所述视频对应的第一特征矩阵,并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别;其中,所述第一网络模型能够识别出第二数量的类别,所述第二数量的类别中包含所述第一数量的类别;根据所述第一数量的类别以及所述第一特征矩阵,生成与所述第一数量的类别相关的概要信息;基于所述概要信息,通过第二网络模型提取所述视频对应的第二特征矩阵,并根据所述第二特征矩阵确定所述视频对应的目标类别,所述目标类别为所述第一数量的类别中的一个。
[0007]第二方面,本专利技术实施例提供一种视频识别装置,所述装置包括:视频获取模块,用于获取需要进行类别识别的视频;第一识别模块,用于通过第一网络模型提取所述视频对应的第一特征矩阵,并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别;其中,所述第一网络模型能够识别出第二数量的类别,所述第二数量的类别中包含所述第一数量的类别;概要生成模块,用于根据所述第一数量的类别以及所述第一特征矩阵,生成与所述第一数量的类别相关的概要信息;第二识别模块,用于基于所述概要信息,通过第二网络模型提取所述视频对应的第二特征矩阵,并根据所述第二特征矩阵确定所述视频对应的目标类别,所述目标类别为
所述第一数量的类别中的一个。
[0008]第三方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如第一方面所述的视频识别方法。
[0009]第四方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的视频识别方法。
[0010]第五方面,本专利技术实施例提供一种视频识别方法,所述方法包括:接收用户设备通过调用视频识别服务触发的请求,所述请求中包括需要进行类别识别的视频;利用所述视频识别服务对应的处理资源执行如下步骤:通过第一网络模型提取所述视频对应的第一特征矩阵,并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别;其中,所述第一网络模型能够识别出第二数量的类别,所述第二数量的类别中包含所述第一数量的类别;根据所述第一数量的类别以及所述第一特征矩阵,生成与所述第一数量的类别相关的概要信息;基于所述概要信息,通过第二网络模型提取所述视频对应的第二特征矩阵,并根据所述第二特征矩阵确定所述视频对应的目标类别,所述目标类别为所述第一数量的类别中的一个;将所述视频对应的目标类别反馈所述用户设备。
[0011]第六方面,本专利技术实施例提供一种视频识别方法,应用于用户终端,所述方法包括:获取需要进行类别识别的视频,以及用于对所述视频进行类别识别的第一网络模型和第二网络模型;通过所述第一网络模型提取所述视频对应的第一特征矩阵,并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别;其中,所述第一网络模型能够识别出第二数量的类别,所述第二数量的类别中包含所述第一数量的类别;根据所述第一数量的类别以及所述第一特征矩阵,生成与所述第一数量的类别相关的概要信息;基于所述概要信息,通过所述第二网络模型提取所述视频对应的第二特征矩阵,并根据所述第二特征矩阵确定所述视频对应的目标类别,所述目标类别为所述第一数量的类别中的一个;根据所述目标类别对所述视频进行处理。
[0012]在本专利技术实施例中,为了实现对一段视频所对应的类别的识别,联合使用了两个网络模型:第一网络模型和第二网络模型(或者成为概要网络模型和细节网络模型),其中,第一网络模型用于预测出这段视频对应的topk类别,以及生成与该topk类别相关的概要信息。概况来说,第一网络模型用于对输入的视频中的关键因素进行概要总结,而这些关键因素是与这topk类别高度相关的。基于该topk类别相关的概要信息,第二网络模型对输入的视频进行细节特征(即上文中的第二特征矩阵)的提取,并基于提取到的这些细节特征最终
从topk类别中确定出输入视频所对应的目标类别。其中,该细节特征对应于有助于在上述topk中区分出目标类别的判别因素。
[0013]相比于从输入视频中直接识别出目标类别的方式,上述先识别出最为可能的topk类别,再基于细节特征区分出topk类别中的一个目标类别的方式,是更容易且节省算力的。基于上述从概要到细节的识别思路,有助于提取到包含更多关键细节的用于识别出目标类别的特征信息,从而可以实现输入视频的准确类别识别。
附图说明
[0014]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本专利技术实施例提供的一种视频识别方法的流程图;图2为本专利技术实施例提供的一种视频识别系统的组成示意图;图3为本专利技术实施例中第二特征提取器的工作过程示意图;图4为本专利技术实施例中特征融合模型的示意图;图5为本专利技术实施例提供的一种视频识别方法的应用示意图;图6为本专利技术实施例提供的一种采样参数θ的生成过程示意图;图7为本专利技术实施例提供的一种上下文特征m的生成过程示意图;图8为本专利技术实施例提供的一种视频采样方法的流程图;图9a

图9c为关键区域的缩放效果示意图;图10为本专利技术实施例提供的一种视频识别方法的应用示意图;图11为本专利技术实施例提供的一种视频识别装置的结构示意图;图12为本实施例提供的一种电子设备的结构示意。
具体实施方式
[0016]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频识别方法,其特征在于,包括:获取需要进行类别识别的视频;通过第一网络模型提取所述视频对应的第一特征矩阵,并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别;其中,所述第一网络模型能够识别出第二数量的类别,所述第二数量的类别中包含所述第一数量的类别;根据所述第一数量的类别以及所述第一特征矩阵,生成与所述第一数量的类别相关的概要信息;基于所述概要信息,通过第二网络模型提取所述视频对应的第二特征矩阵,并根据所述第二特征矩阵确定所述视频对应的目标类别,所述目标类别为所述第一数量的类别中的一个。2.根据权利要求1所述的方法,其特征在于,所述通过第一网络模型提取所述视频对应的第一特征矩阵,并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别,包括:通过第一网络模型中的第一采样器对所述视频进行等间隔采样以得到第一图像集;通过所述第一网络模型中的第一特征提取器对所述第一图像集进行特征提取以得到所述第一特征矩阵,所述第一特征矩阵包括所述第一图像集中图像对应的特征矩阵;将所述第一特征矩阵输入所述第一网络模型中的第一分类器,以得到与所述视频对应的排序靠前的第一数量的类别。3.根据权利要求1或2所述的方法,其特征在于,所述概要信息包括与所述第一数量的类别相关的采样参数和/或与所述第一数量的类别相关的上下文特征,其中,所述采样参数中包括用于定位多个关键帧的第一定位参数以及用于定位各关键帧中关键区域的第二定位参数,所述多个关键帧的数量为预设值,所述关键区域的尺寸为预设值。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一数量的类别以及所述第一特征矩阵,生成与所述第一数量的类别相关的概要信息,包括:确定与所述第一数量的类别对应的类别预测矩阵;拼接所述类别预测矩阵和所述第一特征矩阵;将拼接后的矩阵输入第一概要生成模型,以获取所述第一概要生成模型输出的所述采样参数。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一数量的类别以及所述第一特征矩阵,生成与所述第一数量的类别相关的概要信息,包括:确定与所述第一数量的类别对应的类别预测矩阵;对所述第一特征矩阵进行池化处理;拼接所述类别预测矩阵和池化处理后的特征矩阵;将拼接后的矩阵输入第二概要生成模型,以获取所述第二概要生成模型输出的所述上下文特征。6.根据权利要求3所述的方法,其特征在于,所述基于所述概要信息,通过第二网络模型提取所述视频对应的第二特征矩阵,并根据所述第二特征矩阵确定所述视频对应的目标类别,包括:将所述采样参数和所述视频输入所述第二网络模型中的第二采样器,以使所述第二采
样器根据所述采样参数对所述视频进行采样以得到第二图像集,所述第二图像集包括所述多个关键帧中的关键区域构成;基于所述上下文特征,通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵,所述第二特征矩阵包括所述第二图像集中图像对应的特征矩阵;将所述第二特征矩阵输入所述第二网络模型中的第二分类器以得到所述视频对应的目标类别。7.根据权利要求6所述的方法,其特征在于,所述第二特征提取器中包括多个特征提取层;所述基于所述上下文特征,通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵,包括:针对所述第二图像集中的任一图像,获取第一特征提取层输出的第三特征矩阵;拼接所述第三特征矩阵与所述上下文特征;将拼接后的特征矩阵输入特征融合模型,以获得融合后的第四特征矩阵;将所述第四特征矩阵输入第二特征提取层,以获得所述第二特征提取层输出的第二特征矩阵;其中,所述第二特征提取层为所述多个特征提取层中的最后一层,所述第一特征提取层包括除所述第二特征提取层外的至少一层。8.根据权利要求6所述的方法,其特征...

【专利技术属性】
技术研发人员:沈旭梁树贤黄建强
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1