视频识别方法、装置、设备和存储介质制造方法及图纸

技术编号：34903601 阅读：17 留言：0更新日期：2022-09-10 14:14

本申请提供一种视频识别方法、装置、设备和存储介质，该方法包括：获取需要进行类别识别的视频；通过第一网络模型提取视频对应的第一特征矩阵，并根据第一特征矩阵确定视频对应的topk个类别；根据topk个类别以及第一特征矩阵生成与topk个类别相关的概要信息；基于所述概要信息，通过第二网络模型提取视频对应的第二特征矩阵，并根据第二特征矩阵确定视频对应的目标类别，目标类别为topk个类别中的一个。基于上述从概要到细节的识别思路，有助于提取到包含更多关键细节的用于识别出目标类别的特征信息，从而可以实现输入视频的准确类别识别，且节省算力。基于该方案可以实现按照其中的人物行为类别对视频进行分类。的人物行为类别对视频进行分类。的人物行为类别对视频进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
视频识别方法、装置、设备和存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种视频识别方法、装置、设备和存储介质。

技术介绍

[0002]诸如行为类别识别等分类识别，是深度学习技术重要的应用方向，同时也是视频分析中的基础任务。以行为类别识别为例，若提供对视频中人物的行为类别进行识别的能力，则可以实现对视频中诸如打架斗殴等异常行为的识别，从而及时告警相关处置部门。
[0003]传统的一种识别方式是：对需要进行识别的视频，采用固定采样策略（比如等时间间隔采样）对视频进行采样，以采样出多帧图像，之后，将该多帧图像输入到识别模型，获得识别模型基于该多帧图像输出的类别识别结果。
[0004]基于上述固定采样策略实现的识别方案，容易遗漏视频中与真实类别相对应的关键细节信息，从而导致识别结果准确性不佳。

技术实现思路

[0005]本专利技术实施例提供一种视频识别方法、装置、设备和存储介质，用于提高视频的分类识别结果准确性。
[0006]第一方面，本专利技术实施例提供一种视频识别方法，所述方法包括：获取需要进行类别识别的视频；通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别；其中，所述第一网络模型能够识别出第二数量的类别，所述第二数量的类别中包含所述第一数量的类别；根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息；基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根...

【技术保护点】

【技术特征摘要】
1.一种视频识别方法，其特征在于，包括：获取需要进行类别识别的视频；通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别；其中，所述第一网络模型能够识别出第二数量的类别，所述第二数量的类别中包含所述第一数量的类别；根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息；基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，所述目标类别为所述第一数量的类别中的一个。2.根据权利要求1所述的方法，其特征在于，所述通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别，包括：通过第一网络模型中的第一采样器对所述视频进行等间隔采样以得到第一图像集；通过所述第一网络模型中的第一特征提取器对所述第一图像集进行特征提取以得到所述第一特征矩阵，所述第一特征矩阵包括所述第一图像集中图像对应的特征矩阵；将所述第一特征矩阵输入所述第一网络模型中的第一分类器，以得到与所述视频对应的排序靠前的第一数量的类别。3.根据权利要求1或2所述的方法，其特征在于，所述概要信息包括与所述第一数量的类别相关的采样参数和/或与所述第一数量的类别相关的上下文特征，其中，所述采样参数中包括用于定位多个关键帧的第一定位参数以及用于定位各关键帧中关键区域的第二定位参数，所述多个关键帧的数量为预设值，所述关键区域的尺寸为预设值。4.根据权利要求3所述的方法，其特征在于，所述根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息，包括：确定与所述第一数量的类别对应的类别预测矩阵；拼接所述类别预测矩阵和所述第一特征矩阵；将拼接后的矩阵输入第一概要生成模型，以获取所述第一概要生成模型输出的所述采样参数。5.根据权利要求3所述的方法，其特征在于，所述根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息，包括：确定与所述第一数量的类别对应的类别预测矩阵；对所述第一特征矩阵进行池化处理；拼接所述类别预测矩阵和池化处理后的特征矩阵；将拼接后的矩阵输入第二概要生成模型，以获取所述第二概要生成模型输出的所述上下文特征。6.根据权利要求3所述的方法，其特征在于，所述基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，包括：将所述采样参数和所述视频输入所述第二网络模型中的第二采样器，以使所述第二采
样器根据所述采样参数对所述视频进行采样以得到第二图像集，所述第二图像集包括所述多个关键帧中的关键区域构成；基于所述上下文特征，通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵，所述第二特征矩阵包括所述第二图像集中图像对应的特征矩阵；将所述第二特征矩阵输入所述第二网络模型中的第二分类器以得到所述视频对应的目标类别。7.根据权利要求6所述的方法，其特征在于，所述第二特征提取器中包括多个特征提取层；所述基于所述上下文特征，通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵，包括：针对所述第二图像集中的任一图像，获取第一特征提取层输出的第三特征矩阵；拼接所述第三特征矩阵与所述上下文特征；将拼接后的特征矩阵输入特征融合模型，以获得融合后的第四特征矩阵；将所述第四特征矩阵输入第二特征提取层，以获得所述第二特征提取层输出的第二特征矩阵；其中，所述第二特征提取层为所述多个特征提取层中的最后一层，所述第一特征提取层包括除所述第二特征提取层外的至少一层。8.根据权利要求6所述的方法，其特征...

【专利技术属性】
技术研发人员：沈旭，梁树贤，黄建强，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人